从 讨 虫 软件 开发 到 目 己 动手 开发 怜 虫 框 淋 


MRES, RARD, WM JREHBAZ/DXZNIESEIE 
涵盖 丰富 的 爬虫 工具 、 库 、 框 梁 ， 十 余 个 实战 项 目 
资深 息 虫 工程 师 倾 力 奉献 ， 入 1 门 、 进 阶 、 求 职 必 备 


内 容 简 介 

本 书 从 原理 到 实践 ， 循 序 渐进 地 讲述 了 使 用 Python 开发 网 络 爬 虫 的 核心 技术 。 全 书 从 多 辑 上 可 分 为 基础 篇 、 
实战 篇 和 有 疏 虫 框架 篇 三 部 分 。 基 础 篇 主要 介绍 了 编写 网 络 爬 虫 所 需 的 基础 知识 ， 包 括 网 站 分 析 、 数 据 抓 取 、 数 据 
清洗 和 数据 入 库 。 网 站 分 析 讲 述 如 何 使 用 Chrome 和 Fiddler 抓 包 工具 对 网 站 做 全 面 分 析 ; 数据 抓 取 介绍 了 Python 
MERRI Urllib 和 Requests 的 基础 知识 ， 数据 清洗 主要 介绍 字符 串 操作 、 正 则 和 BeautifulSoup 的 使 用 ;， 数 据 
入 库 讲 述 了 MySQL 和 MongoDB 的 操作 ， 通 过 ORM 框架 SQLAlchemy 实现 数据 持久 化 ， 进 行 企业 级 开发 。 实 战 篇 深入 
讲解 了 分 布 式 爬虫 、 疏 时 软件 的 开发 、12306 抢 票 程 序 和 微 博 爬 取 等 。 框 架 篇 主要 讲述 流行 的 爬虫 框架 Scrapy， 
并 以 Scrapy 与 Selenium, Splash, Redis 结合 的 项 目 案例 ， 让 读者 深层 次 了 解 Scrapy 的 使 用 。 此 外 ， 本 书 还 介 
绍 了 把 虫 的 上 线 部 署 、 如 何 自 己 动手 开发 一 计 息 虫 框 架 、 反 有 息 虫 技术 的 解决 方案 等 内 容 。 

本 书 使 用 Python 3.X 编写 ， 技术 先进 ， 项 目 丰 富 ， 适 合 欲 从 事 候 虫 工 程 师 和 数据 分 析 师 疝 位 的 初学 者 、 大 学 
生 和 研究 生 使 用 ， 也 很 适合 有 一 些 网 络 息 虫 编写 经 验 ， 但 希望 更 加 全 面 、 深 入 理解 Python 爬虫 的 开发 人 员 使 用 。 
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随 着 大 数据 和 人 工 智 能 的 普及 ，Python HEEK, PERRA RIA T Python 
开发 ， 其 中 网 络 爬 虫 是 Python 最 为 热门 的 应 用 领域 之 一 。 在 爬虫 领域 ，Python 可 以 说 是 处 于 霸主 
地 位 ，Python 能 解决 仆 虫 开 友 过 程 中 所 过 到 的 难题 ， 开 友 速 度 快 且 文 持 寞 步 编 程 ， 大 大 绚 短 了 开 
上 友 周 期 。 此 外 ， 从 事 数 据 分 析 的 工程 师 ， 为 获取 数据 ， 很 多 时 候 也 会 用 到 网 络 爬 虫 的 相关 技术 ， 因 
此 ，Python 爬虫 编程 已 成 为 爬虫 工程 师 和 数据 分 析 师 的 必 备 技能 

本 书 结构 

本 书 共 分 28 章 ， 各 章 内 容 概述 如 下 : 

第 1 章 介 绍 什么 是 网 络 爬 虫 、 讨 虫 的 类 型 和 原理 、 疏 虫 搜索 荣 略 和 疏 虫 的 合法 性 及 开发 流程 。 

第 2 章 讲 解 仆 虫 开发 的 基础 知识 , 包括 HTTP 协议 、 请 求 头 和 Cookies TERI. HTML 的 布局 
结构 、JavaScript 的 介绍 、JSON 的 数据 格式 和 Ajax 的 原理 。 

第 3 章 介 绍 使 用 Chrome 开发 工具 分 析 息 取 网 站 ， 重 点 介绍 开发 工具 的 Elements 和 Network 
标签 的 功能 和 使 用 方式 ， 并 通过 开发 工具 分 析 QQ 网 站 。 

第 4 章 主要 介绍 Fiddler 抓 包 工具 的 原理 和 安装 配置 , Fiddler 用 户 界面 的 各 个 功能 及 使 用 方法 。 

第 5 章 讲 述 J 了 Urllib 在 Python 2 和 了 Python 3 的 变化 及 使 用 ,包括 友 送 请 求 、 使 用 代理 IP. Cookies 
的 读 写 、HTTP 证 书 验收 和 数据 处 理 。 

第 6 章 ~ 第 8 章 介 绍 Python 第 三 方 库 Requests, Requests-Cache 爬虫 缓存 和 Requests-HTML, 
包括 发 送 请 求 、 使 用 代理 IP, Cookies 的 读 写 、HTTP 证 书 验收 和 文件 下 载 与 上 传 、 复 杂 的 请 求 方 
式 、 绥 存 的 存储 机 制 、 数 据 清洗 以 及 Ajax 动态 数据 爬 取 等 内 容 。 

第 9 章 介 绍 网 页 操控 和 数据 讨 取 ， 重 点 讲解 Selenium 的 安装 与 使 用 ， 并 通过 实战 项 目 “ 百 虐 
目 动 答题 ”， 讲 解 了 Selenium 的 使 用 。 

第 10 章 介 绍 手机 App AER, AF Appium 的 原理 与 开发 环境 搭建 、 连 接 Android 系统 ， 
并 通过 实战 项 目 “ 淘 宇 商 品 米 集 ”， 介 绍 了 App 数据 的 爬 取 技巧 。 

第 11 童 介绍 Splash, Mitmproxy H A1ohttp 的 安装 和 使 用 ,包括 Splash 动态 数据 抓 取 、Mitmproxy 
抓 包 和 Aiohttp 高 并 发 抓 取 。 

第 12 章 介 绍 验证 码 的 种 类 和 识别 方法 ， 包 括 OCR 的 安装 和 使 用 、 验 证 码 图 片 处 理 和 使 用 第 
三 方 平台 识别 验证 个 。 

第 13 草 讲 述 数 据 清洗 的 三 种 方法 ， 包 括 字 符 串 操作 《〈 稚 取 、 碍 找 、 分 割 和 兰 换 ) 、 正 则 表达 
式 的 使 用 和 第 三 方 库 BeautifulSoup 的 安装 以 及 使 用 。 

第 14 章 讲述 如 何 将 数据 存储 到 文件 ， 包 括 CSV. Excel 和 Word 文件 的 读 取 和 写 入 方法 。 

第 15 章 介绍 ORM 框架 SQLAlchemy 的 安装 及 使 用 ， 实 现 关 系 型 数据 库 持久 化 存储 数据 。 

第 16 章 讲 述 非 天 系 型 数据 库 MongoDB 的 操作 ， 包 括 MongoDB 的 安装 、 原 理 和 Python 实现 


II | 实战 Python WEE 


MongoDB HJE. 

第 17 章 至 第 21 章 介 绍 了 5 个 实战 项 目 ， 分 别 是 : MER 51Job HHE DEANE QQ 
音乐 、12306 抢 票 爬虫 、 微 博 爬 取 和 微 博 爬 虫 软件 的 开发 。 

第 22 章 至 第 25 章 介 绍 了 Scrapy MERHER, HS Serapy 的 运行 机 制 、 项 目 创 建 、 各 个 组 件 的 
编写 (Setting. Items, Item Pipelines 和 Spider) 和 文件 下 载 及 Scrapy 中 间 件 ， 并 通过 实战 项 目 
“Scrapy+Selenium MER 52 XE Hag Yl ie" ~ *Scrapy*Splash JER B 站 动漫 信息 ”和 “Scrapyt+Redis 
分 布 式 爬 取 猫 眼 排行 榜 ”、“ 疏 取 链 家 楼 租 信 息 ” 和 “QQ FREWER” . RAHET Scrapy 
的 应 用 和 分 布 式 胎 虫 的 编写 技巧 。 

第 26 章 介绍 爬虫 的 上 线 部 普 ， 包 括 非 框架 式 爬 虫 和 框架 式 爬 虫 的 部 署 技 巧 。 

第 27 章 介绍 常见 的 反 息 虫 技术 ， 并 给 出 了 可 行 的 反 息 虫 解决 方案 。 

第 28 章 介绍 有 虫 框架 的 编写 ， 学 习 如 何 自己 动手 编写 一 款 疏 下 框架 ， 以 满足 特定 业务 场景 的 

本 书 特 色 

循序 渐进 ， 涉 及 面 广 : 本 书 站 在 初学 者 的 角度 ， 循 序 渐进 地 介绍 了 使 用 Python FRNA f€ ri 
的 各 种 知识 ， 内 容 由 浅 入 深 ， 几 乎 涵 赫 了 目前 网 络 扑 虫 开 及 的 各 种 热门 工具 和 前 瞻 性 技术 。 

实战 项 目 丰富 ， 扩 展 性 强 ， 本 书 采用 大 量 的 实战 项 目 进行 讲解 ， 力 求 通过 实际 应 用 使 读者 更 
容易 地 掌握 了 虫 开发 技术 ， 以 应 对 业务 需求 。 本 书 项 目 经 过 编者 精心 设计 和 挑选 ， 根 据 实际 开发 经 
验 总 结 而 来 ， 涵 兰 了 在 实际 开发 中 所 遇 到 的 各 种 问题 。 对 于 精 选 项 目 ， 尽 可 能 做 到 步骤 详尽 、 结 构 
清晰 、 分 析 深 入 浅 出 ， 而 且 案 例 的 扩展 性 强 ， 读 者 可 根据 实际 需求 扩展 开发 。 

从 理论 到 实践 ， 注 重 培 独 扑 虫 开 发 思维 : 在 讲解 过 程 中 ， 不 仅 介绍 理论 知识 ， 注 重 培养 谈 者 
的 朴 虫 开发 思维 , 而 且 安 排 了 综合 应 用 实例 或 小 型 应 用 程序 , 使 读者 能 顺利 地 将 理论 应 用 到 实践 中 。 

特色 干货 ， 倾 情 分 享 : 本 书 大 部 分 内 容 都 来 目 作 者 多 年 来 的 编程 实践 ， 操 作 性 很 强 。 值 得 关 
注 的 是 ， 本 书 还 介绍 了 有 息 虫 软件 和 扑 虫 框架 的 开发 ， 供 学 有 余力 的 读者 扩展 知识 结构 ， 提 升 开发 技 
能 。 

产 代码 下 载 

本 书 所 有 程序 代码 均 在 Python 3.6 下 调试 通过 ， 源 代码 Github 下 载 地 址 : 

https://github.com/xyjw/python-Reptile 

PRIE np UA T4358 P B —483 FAX 


如 果 你 在 下 载 过 程 中 遇 到 问题 ， 可 发 送 邮 件 至 554301449(2qq.com 获得 帮助 ， 邮 件 标题 为 “ 实 
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战 Python 网 络 爬 虫 下 载 资 源 ”。 

技术 服务 

读者 在 学 习 或 者 工作 的 过 程 中 ， 如 果 遇 到 实际 问题 ， 可 以 加 入 QQ 群 93314951 与 笔者 联系 ， 
笔者 会 在 第 一 时 间 给 予 回复 。 

读者 对 象 

本 书 主要 适合 以 下 读者 阅读 : 


e Python 网 络 疏 虫 初学 者 及 在 校 学 生 . 

e Python WAJ xz 1-42 Jm, 

e 从 事 数 据 抓 取 和 分 析 的 技术 人 员 。 

e 7] Python 程序 设计 的 开发 人 员 ，。 

虽然 笔者 力求 本 书 更 殖 完 美 ， 但 由 于 水 平 所 限 ， 难 免 会 出 现 错误 ， 特 别 是 实例 中 扑 取 的 网 站 


可 能 随时 更 新 ， 导 致 源码 在 运行 过 程 中 出 现 问题 ， 欢 迎 广 大 谈 者 和 高 手 专家 给 予 指 正 ， 笔 者 将 十 分 
感谢 。 


黄 水 祥 
2019 年 1 月 
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就 是 根据 一 定 的 算法 实现 编程 开 及 ， 主 要 通过 URL 实现 数据 的 抓 取 和 发 掘 。 

随 看 大 数据 时 代 的 发 展 ， 数 据 规 模 越 来 越 庞 大 ， 数 据 关 型 票 多 ， 但 是 数据 价值 普 授 较 低 。 为 
了 从 庞大 的 数据 体系 里 获取 有 价值 的 数据 ， 从 而 延伸 了 网 络 爬 虫 、 数 据 分 析 等 多 个 职位 。 近 几 年 ， 
网 络 爬 虫 的 需求 更 是 井喷 式 地 焊 友 , 在 招聘 的 供求 市 场 上 往往 是 供不应求 , 造成 这 个 现状 的 主要 原 
因 束 是 求职 者 的 专业 水 平 低 于 需求 企业 的 要 求 。 

传统 的 息 虫 有 白 度 、Google、 必 应 等 搜索 引擎 ， 这 类 通用 的 搜索 引擎 部 有 目 己 的 核心 算法 。 
但 是 ， 通 用 的 搜索 引擎 存在 着 一 定 的 局 限 性 : 

(D 不 同 的 搜索 引擎 对 于 同一 个 搜索 会 有 不 同 的 结果 ， 搜 索 出 来 的 结果 未 必 是 用 户 需 要 的 信 
息 。 

(20 通用 的 搜索 引擎 扩大 了 网 络 履 震 率 ， 但 有 限 的 搜索 引擎 服务 郁 资 源 与 无 限 的 网 络 数据 资 
Vs 2 [8] ES ZIP JE PEE — 27 RR o 

G) BEER EAER RKE MARRIR BUR EE. EE. BE POM. MUDUE USE 
不 同 数据 大 量 出 现 , 通用 搜索 引擎 往 往 对 这 些 信息 含量 密集 且 具 有 一 定 结构 的 数据 无 能 为 力 , 不 能 
很 好 地 发 现 和 获取 。 


因此 ， 为 了 得 到 准确 的 数据 ， 定 同 抓 取 相关 网 页 资源 的 聚焦 仆 虫 应 运 而 生 。 有 聚焦 和 仆 虫 是 一 个 
目 动 下 载 网 页 的 程序 ， 可 根据 设 定 的 抓 取 目 标 有 目的 性 地 访问 互联 网 上 的 网 页 与 相关 的 URL， 从 
而 获取 所 需要 的 信息 。 与 通用 爬虫 不 同 ， 到 焦 爬虫 并 个 奶 求 全 面 的 才 震 率 ， 而 是 抓 取 与 未 一 特定 内 
容 相 关 的 网 页 ， 为 面 问 特定 的 用 户 提 供 准 备 数 据 资 源 。 
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网 络 爬 虫 根据 系统 结构 和 开发 技术 大 致 可 以 分 为 4 PRESA: HRE, RENER, 
AEAN ERARE AER. 

通用 网 络 爬 虫 又 称 全 网 爬虫 ， 常 见 的 有 百度 、Google、 必 应 等 搜索 引擎 ， 疏 行 对 象 从 一 些 初 
H URL 扩充 到 你 个 网 站 ， 主 要 为 门户 站 点 搜索 引擎 和 大 型 网 站 服务 采集 数据 ， 具 有 以 下 特点 : 


(1) 由 于 商业 原因 ， 引 擎 的 算法 是 不 会 对 外 公布 的 。 

(2) ARAE RER EMEEK, X FERRERA F ETE RE a, ME 
顺序 要 求 相对 较 低 。 

G) 竺 刷新 的 页 面 太 多 ， 通 第 采用 并 行 工作 方式 ， 但 需要 较 长 时 间 才 能 刷新 一 次 页 面 。 

(4) 存在 一 定 缺陷 ， 通 用 网 络 爬 虫 适 用 于 为 搜索 引擎 搜索 广泛 的 需求 。 


聚焦 网 络 息 虫 又 称 主题 网 络 息 虫 ， 是 选择 性 地 拒 取 根据 需求 的 主题 相关 页 面 的 网 络 息 虫 。 与 
通用 网 络 爬 虫 相 比 ， 聚 焦 爬 虫 只 需要 疏 取 与 主题 相关 的 页 面 ， 不 需要 广泛 地 履 盖 无关 的 网 页 ， 很 好 
地 满足 一 些 特定 人 群 对 特定 领域 信息 的 需求 。 

增 量 式 网 络 息 虫 是 指 对 已 下 载 网 丰采 取 增 量 式 更 新 和 只 扑 取 新 产生 或 者 已 经 发 生变 化 的 网 页 
的 爬虫 , 它 能 够 在 一 定 程 度 上 保证 所 疏 取 的 页 面 尽 可 能 是 新 的 页 面 。 只 会 在 需要 的 时 候 爬 取 新 产生 
或 发 生 更 新 的 页 面 ， 并 不 重新 下 载 没 有 发 生变 化 的 页 面 ， 可 有 效 减 少数 据 下 载 量 ， 及 时 更 新 已 爬 
取 的 网 页 , 减 小 时 间 和 空间 上 的 耗费 , 但 是 增加 了 和 扑 取 算法 的 复杂 度 和 实现 难度 ,基本 上 这 类 把 虫 
在 实际 开发 中 不 太 普 及 。 

深层 网 络 息 虫 是 大 部 分 内 容 不 能 通过 静态 URL 获取 的 、 隐 藏 在 搜索 表单 后 的 、 只 有 用 户 提 交 
一 些 天 键 词 才能 获得 的 网 络 页 面 。 例如 菜 些 网 站 需要 用 户 登 录 或 者 通过 提交 表单 实现 提交 数据 。 这 
类 有 息 虫 也 是 本 书 讲述 的 重点 之 一 。 

实际 上 ， 聚 焦 网 络 爬 虫 、 增 量 式 网 络 爬 虫 和 深层 网 络 爬 虫 可 以 通俗 地 归纳 为 一 类 ， 因 为 这 类 
疏 虫 都 是 定 回 礁 取 数据 。 相 比 于 通用 爬虫 , 这 类 疏 虫 比较 有 目的 性 ， 也 就 是 网 络 上 经 常 说 的 网 络 疏 
虫 ， 而 通用 扑 虫 在 网 络 上 通常 称 为 搜索 引擎 。 


1.3 Ekhi 


通用 网 络 爬 虫 的 实现 原理 及 过 程 如 图 1-1 所 示 。 
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HISGURL 


Aun 读 取 URL 并 解释 网 页 内 容 


| 


< 一 ”满足 停止 条 件 “二 = 一 一 一 一 ”获取 新 URL 


数据 入 库 


JE | AR 
图 1-1 AHERMAA E 
通用 网 络 爬 虫 的 实现 原理 : 


(D 获取 初始 的 URL。 初 始 的 URL 地 址 可 以 人 为 地 指定 ， 也 可 以 由 用 户 指定 的 某 个 或 某 几 
个 初始 爬 取 网 页 决定 。 

(2) 根据 初始 的 URL 疏 取 页 面 并 获得 新 的 URL。 获 得 初始 的 URL 3hhbzJs. AER i 
URL 地 址 中 的 网 页 信息 ， 然 后 解析 网 页 信息 内 容 ， 将 网 页 存储 到 原始 数据 库 中 ， 并 且 在 当前 获得 
的 网 页 信息 里 发 现 新 的 URL 地址， 存放 于 一 个 URL 队列 里 面 。 

(3) 从 URL 队列 中 读 取 新 的 URL， 从 而 获得 新 的 网 页 信息 ， 同 时 在 新 网 页 中 获取 新 URL. 
FHER EREMIE. 

(4). 满足 爬虫 系统 设置 的 停止 条 件 时 ， 停 止 肘 取 。 在 编写 朴 虫 的 时 候 ， 一 般 会 设置 相应 的 停 
止 条 件 ， 怜 颗 则 会 在 停止 条 件 满 足 时 停止 肘 取 。 如 果 没 有 设置 停止 条 件 ， 疏 虫 就 会 一 直 疏 取 下 去 ， 
一 直到 无 法 获取 新 的 URL 地 址 为 止 。 

聚焦 网 络 爬 虫 的 执行 原理 和 过 程 与 通用 讨 虫 大 致 相同 ， 在 通用 讨 虫 的 基础 上 增加 两 个 步骤 : 
定义 扑 取 目标 和 筛选 过 滤 URL, MAWR 1-2 所 示 。 


初始 URL 


| 


待 提取 URL 


读 取 URL 并 解释 网 页 内 容 


~~] 


L > 停止 
图 1-2 ”聚焦 网 络 疏 虫 的 原理 
聚焦 网 络 爬 虫 的 实现 原理 : 


C) 制定 仆 取 方案 。 在 聚焦 网 络 息 虫 中 ， 肯 先 要 依据 需求 定义 聚焦 网 络 息 虫 仆 取 的 目标 以 及 
整体 的 爬 取 方 案 。 
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(2) 设 定 初始 的 URL. 

(3) 根据 初始 的 URL 抓 取 页 面 ， 并 获得 新 的 URL. 

(4) 从 新 的 URL 中 过 滤 掉 与 需求 无 关 的 URL， 将 过 滤 后 的 URL 放 到 URL 队列 中 。 

(5) 在 URL 队列 中 ， 根 据 搜 索 算 法 确定 URL 的 优先 级 ， 并 确定 下 一 步 要 爬 取 的 URL 地 址 。 
因为 聚焦 网 络 爬 虫 具有 目的 性 ， 所 以 URL 的 扑 取 顺序 不 同 会 导致 仆 虫 的 执行 效率 不 同 。 

(6) 得 到 新 的 URL， 将 新 的 URL 重 现 上 述 爬 取 过 程 。 

CI) 满足 系统 中 设置 的 停止 条 件 或 无 法 获取 新 的 URL 地 址 时 ， 停 止息 行 。 
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在 互联 网 数据 时 代 ， 有 三 大 搜索 策略 需要 有 所 了 解 ， 下 面 一 一 介绍 。 

1. 深度 优先 搜索 

深度 优先 搜索 是 在 开发 扑 虫 早期 使 用 较 多 的 方法 ， 目 的 是 达到 被 搜索 结构 的 叶 结 点 (那些 不 
包含 任何 超级 URL 的 HTML 文件 ) 。 在 一 个 HTML 文件 中 ， 当 一 个 URL 被 选择 后 ， 被 选 URL 
将 执行 深度 优先 搜索 ， 搜 索 后 得 到 新 的 HIML 文件 ， 再 从 新 的 HIML 获取 新 的 URL 进行 搜索 ， 
CEHE, MEERN HTML 中 的 URL， 直 到 HTML 中 没有 URL 为 止 。 

深度 优先 搜索 沿 着 HTML 文件 中 的 URL 走 到 不 能 再 深入 为 止 ， 然 后 返回 到 某 一 个 HTML X 
件 ， 再 继续 选择 该 HTML 文件 中 的 其 他 URL。 当 不 再 有 其 他 URL 可 选择 时 ， 说 明 搜 索 已 经 结束 。 
其 优点 是 能 遍历 一 个 Web 站 点 或 深层 舱 套 的 文档 集合 。 缺点 是 因为 Web 结构 相当 深 ,， 有 可 能 造成 
一 旦 进去 再 也 出 不 来 的 情况 发 生 。 

举 个 例子 , 比如 一 个 网 站 的 首页 里 面 带 有 很 多 URL, 深度 优先 通过 首页 的 URL 进入 新 的 页 面 ， 
然后 通过 这 个 页 面 里 的 URL 再 进入 新 的 URL. 不 断 地 循环 下 去 ， 直到 返回 的 页 面 没 有 URL 为止。 
如 果 首 页 有 两 个 URL， 选 择 第 一 个 URL 后 ， 生 成 新 的 页 面 就 不 会 返回 首页 ， 而 是 在 新 的 页 面 选择 
一 个 新 的 URL， 这 样 不 停 地 访问 下 去 。 

2. 宽度 优先 搜索 

宽度 优先 搜索 是 搜索 完 一 个 Web 页 面 中 所 有 的 URL， 然 后 继续 搜索 下 一 层 ， 直 到 底层 为 止 。 
例如 ， 首 页 中 有 3 个 URL， 疏 虫 会 选择 其 中 之 一 ， 处 理 相应 的 页 面 之 后 ， 然 后 返回 首页 再 爬 取 第 
二 个 URL， 处 理 相应 的 页 面 ， 最 后 返回 首页 爬 取 第 三 个 URL， 处 理 第 三 个 URL 对 应 的 页 面 。 

一 旦 一 层 上 的 所 有 URL 都 被 选择 过 ， 就 可 以 开始 在 刚才 处 理 过 的 页 面 中 搜索 其 余 的 URL, 这 
就 保证 了 对 浅 层 的 优先 处 理 。 当 遇 到 一 个 无 穷尽 的 深层 分 支 时 , 不 会 导致 陷 进 深层 文档 中 出 不 来 的 
情况 上 友 生 。 宽 度 优 先 搜索 策略 还 有 一 个 优点 ， 能 够 在 两 个 页 面 之 间 找 到 最 短路 径 。 

宽度 优先 搜索 策略 通 营 是 实现 爬虫 的 最 佳 策略 ， 因 为 它 容 易 实 现 ， 而 且 具 备 大 多 数 期 望 的 功 
能 。 但 是 如 果 要 过 历 一 个 指定 的 站 点 或 者 深层 父 套 的 HTML 文件 集 ， 用 宽度 优先 搜索 策略 就 需要 
花费 较 长 时 间 才 能 到 达 最 抵 层 。 


3. 聚焦 拒 虫 的 仆 行 策略 
聚焦 爬虫 的 爬行 集 略 只 针对 东 个 特定 主题 的 页 面 ， 根 据 “最 好 优先 原则 ”进行 访问 ， 人 快速 、 
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有 效 地 获得 更 多 与 主题 相关 的 页 面 , 主要 通过 内 容 与 Web 的 URL 结构 指导 进行 页 和 面 的 抓 取 。 有 聚焦 
爬虫 会 给 所 下 载 的 页 面 一 个 评价 分 , 根据 得 分 排序 插入 一 个 队列 中 。 最 好 下 一 个 搜索 对 弹出 队列 的 
第 一 个 页 面 进行 分 析 后 执行 ,这 种 梨 略 保证 爬虫 能 优先 跟踪 那些 最 有 可 能 URL 到 目标 页 面 的 页 面 。 

决定 网 络 爬 虫 搜索 策略 的 关键 是 评价 URL 价值 ， 即 URL 价值 的 计算 方法 ， 不 同 的 价值 评价 
方法 计算 出 的 URL 的 价值 不 同 , 表现 出 的 URL 的 “重要 程度 ”也 不 同 , 从 而 决定 不 同 的 搜索 策略 。 
由 于 URL 包含 于 页 面 之 中 , 而 通 利 具有 较 高 价值 的 页 面包 含 的 URL. BRA REME, 因此 对 URL 
价值 的 评价 有 时 也 转换 为 对 页 面 价值 的 评价 。 


1.5 疏 虫 的 合法 性 与 开发 流程 


网 络 爬 正在 大 多 数 情况 下 都 不 会 违法 ， 在 生活 中 几乎 都 有 殿中 应 用 ， 比 如 在 百度 中 搜索 的 内 
容 几 乎 都 是 通过 疏 虫 采集 下 来 的 ,因此 网 络 爬 虫 作为 一 门 技术 ,技术 本 喘 是 不 违法 的 ， 且 在 大 多 数 
情况 下 可 以 放心 使 用 讨 虫 技术 。 当 然 也 有 特殊 情况 ,正如 水 条 刀 本 喘 在 法 律 上 并 不 和 被 蓉 止 使 用 , 但 
是 用 来 仿 害 他 人 ,这 驶 触 犯 了 法 律 规 则 。 一 般 情 况 下 ,， 疏 虫 所 市 来 的 违法 风险 主要 体现 在 以 下 几 个 
方面 : 


d) 利用 爬虫 技术 与 黑客 技术 结合 ， 攻 击 网 站 后 人 台 ， 从 而 狐 取 后 人 台数 据 。 因 为 爬虫 是 爬 取 网 
站 上 的 网 页 信息 ， 这些 信 息 能 给 用 己 浏 蝶 ， 也 就 是 说 这 些 信息 允许 我 们 使 用 和 有 息 取 。 但 网 站 的 后 台 
数据 是 不 被 公开 的 数据 , 这 些 数 据 涉 及 了 用 户 的 隐私 和 财产 安全 , 如 条 通过 诬 虫 技术 与 黑客 技术 镭 
取 后 台数 据 ， 这 束 明 显 触发 法律 的 抵 线 。 

(2) 利用 有 息 虫 恶意 攻击 网 站 ， 造 成 网 站 系统 的 次 痪 。 扑 虫 古 通过 程序 去 访问 并 操控 网 站 ， 因 
此 访问 速度 非 钊 快 ， 再 加 上 程序 的 高 并 有 处理 ， 可 以 在 短 时 间 内 模拟 成 干 上 万 的 用 户 在 访问 网 站 。 
当 网 站 的 访问 量 过 高 ， 束 会 加 重 网 站 的 负载 ， 从 而 造成 系统 的 鸣 痪 ， 如 果 长 期 这 样 恶 意 攻 击 网 站 系 
统 ， 也 很 可 能 违反 相关 的 法 律 条 例 。 


综 上 有 所 述 ， 扑 虫 搁 术 本 里 是 无 徘 的 ， 问 题 往往 出 在 人 的 无 限 欲望 上 。 因 此 息 虫 开发 者 和 企业 
经 营 者 的 妃 德 民 知 才 是 避免 触 磁 法 律 奔 线 的 根本 所 在 。 

既然 息 虫 搁 术 是 合法 的 ， 那 么 ， 我 们 有 必要 了 解 一 下 扑 虫 的 开发 流程 。 只 有 午 握 开 友 流程 ， 
才能 编 与 高 质 的 爬虫 程序 ， 这 好 比 再 房子 一 样 ， 建 筑 施 工人 员 需 要 根据 房屋 设计 图 才能 搭建 房子 ， 
而 房屋 设计 图 等 同 于 爬虫 的 开 有 流程 。 一 般 情 况 下 ， 疏 虫 的 开 有 流程 如 下 : 


(1) 需求 说 明 。 任 何 程序 开 友 都 离 不 开 需 求 说 明 ， 疏 虫 开 有 也 是 如 此 。 需 求 说 明 包 含 功能 说 
明 、 功 能 的 业务 多 辑 等 详细 说 明 。 疏 虫 的 需求 访 明 要 明确 告知 开 有 友人 员 需 要 爬 取 哪 些 数 据 、 数 据 的 
存储 方式 以 及 爬虫 的 肘 取 效率 。 

(2) 爬虫 开 肥 计划 。 根 据 爬 里 的 需求 说 明 制定 相关 的 开 有 友 计 划 ， 比 如 选择 爬虫 的 开 及 工具、 
功能 模块 化 设计 、 设 计 扑 虫 运行 模式 等 一 系列 开 太 明细。 

G) 爬虫 的 功能 开 友 。 根 据 开 发 计划 编写 相应 的 功能 代码 。 以 功能 模块 化 设计 为 依据 ， 每 个 
功能 模块 以 图 数 或 类 的 形 却 表示 ， 再 将 各 个 模块 进行 组 合 ， 从 而 实现 整个 爬虫 功能 的 开 上 肥 。 

(4) 爬虫 的 部 普 与 区 付 。 程 序 开发 完成 后 《包含 测 试 通 过 ) 就 可 以 进行 部 垩 上 线 或 交付 客户 。 
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部 普 和 交付 的 方式 有 多 种 ， 比 如 打包 exe EET. GU A ERK 或 定时 执行 等 。 


上 述 的 仆 虫 开发 流程 是 相对 而 言 的 ， 每 一 个 开发 步 又 并 非 一 成 不 变 的 ， 上 有 具体 的 开发 流程 还 需 
要 结合 实际 情况 而 定 。 


1.6 Æ «4 h £28 


网 络 爬 虫 的 医 型 理论 上 分 为 4 类 ， 但 实际 上 主要 是 两 大 类 : XRRIEGHUNIAEERE Hs X8 RITE n 
主要 有 Google、 日 度 、 必 应 等 搜索 引擎 ， 主 要 以 核心 算法 为 主导 ， 学 习 成 本 相对 较 局 。 有 聚 焦 爬 中 
就 是 定 回 爬 取 数 据 ， 古 有 目的 性 的 爬虫 ， 学 习 成 本 相对 较 低 。 

我 们 利 说 的 网 络 爬 虫 大 多 数 以 聚焦 肘 时 为 主 ， 其 原理 和 过 程 与 通用 爬虫 大 致 相同 ， 读 者 在 纳 
写 爬 里 程序 的 时 候 ， 需 要 以 设 定 的 爬虫 规则 和 疏 取 目标 为 主导 ， 这 样 更 具 较 踢 的 目的 性 。 

网 络 爬 虫 在 大 多 数 情况 下 都 不 会 违法 ， 在 生活 中 几乎 都 有 疏 虫 应 用 ， 比 如 在 昌 度 中 搜索 的 内 
容 几 乎 者 是 通过 爬虫 采集 下 来 的 ,因此 网 络 疏 虫 作 为 一 门 技术 ,技术 本 身 是 不 违法 的 ， 且 在 大 多 数 
情况 下 可 以 放心 使 用 诬 虫 技术 。 当 然 也 有 特殊 情况 ， 正 如 水 果 刀 本 身 在 法 律 上 并 不 被 蔷 止 使 用 , 但 
是 用 来 伤害 他 人 ， 这 束 触 犯 了 法 律 规 则 。 

既然 肘 虫 技术 是 合法 的 ， 那 么 ， 我 们 有 必要 了 解 爬 虫 的 开发 流程 。 只 有 和 擎 握 开 友 流程 ， 才 能 
编写 高 质 的 爬虫 程序 ， 这 好 比 兰 房子 一 样 ， 建 筑 施 工人 员 需 要 根据 房屋 设计 图 才能 搭建 房子 ， 而 房 
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HTTP (Hyper Text Transfer Protocol, EFEM 6 — ^P Jm IC AS i m VE ZR E 
的 标准 〈《TCP) . AP mE mH, RA ime N XHIIfSH] Web swa. MAERAH 
ft LE. Zr mRNS AS as L1HxE XI GAA mA 80) 的 HTTP R, ix^ zm in Hj 
FA (User Agent) o WII S as CMEI, Dou HTML SCHEMA 3X HRS s 73058 HR 
Far (Origin Server) , (EHI P REMA ar Pn RETELA PE, EURE, ARRA DA 

(Tunnels) 。 

X85, Hi HTTP 客户 闹 发 起 一 个 请 求 ， 建 立 一 个 到 服务 占 指 定 端口 (默认 是 80 端口 ) 的 TCP 
EFX, HTTP 服务 硕 则 在 那个 痛 口 监听 客户 痕 发 送 过 来 的 请 求 ， 一旦 收 到 请 求 ， 服 务 耸 〈 回 客户 站 ) 
发 回 一 个 状态 行 〈 比 如 "HTTP/1.1 200 OK") 和 【响应 的 ) 消息 ， 消 息 的 消息 体 可 能 是 请 求 的 文件 、 
错误 消 轧 或 者 其 他 一 些 信息 。 

在 浏览 器 的 地 址 栏 输入 的 网 站 地 址 叫 作 URL (Uniform Resource Locator， 统 一 资源 定位 符 ) o 
就 像 每 家 每 户 都 有 一 个 门牌 地 址 一 样 ， 每 个 网 页 也 都 有 一 个 Internet 地 址 。 在 浏览 器 的 地 址 框 中 输 
入 一 个 URL 或 单 击 一 个 超级 URL Bf, URL 惑 确定 了 要 浏览 的 地 址 ， 回 服务 夯 上 友 送 一 次 请 求 ， 浏 
上 硕大 通过 超 文本 传输 协议 〈HITP) 传送 到 服务 亏 ， 服 务 右 根据 请 求 头 做 出 相应 的 啊 应 ， 将 啊 应 数 
据 人 返回 到 客户 问 ， 客 户 端 收 到 啊 应 内 容 后 ， 通 过 浏览 器 翻译 成 网 页 。 

HTTP 协议 传输 的 数据 都 是 未 加 密 的 ， 也 就 是 明文 的 数据 ,因此 使 用 HTTP. 协议 传输 隐私 信息 
非常 不 安全 。 为 了 保证 这 些 隐私 数据 能 加 密 传 输 ， 于 是 网 景 公司 设计 SSL (Secure Sockets Layer) 
协议 用 于 对 HTTP 协议 传输 的 数据 进行 加 窗 ， 从 而 诞生 了 HTTPS. 

HTTPS (Hyper Text Transfer Protocol orer Secure Sokcket Layer， 可 以 理解 为 HTTP+SSL/TLS) 
TE Fe CS ZZ B ame 3m OAA 与 服务 端 (网 站 ) 之 间 进 行 一 次 担 手 ， 在 握手 过 程 中 将 确立 
双方 加 密 传输 数据 的 密码 信息 。HTTP 与 HTTPS 的 主要 区 别 可 参考 图 2-1 所 示 。 
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SSL/TLS 


图 2-1 HTTP 5 HTTPS If] DX 5j] 


P 


HTTPS 的 SSL 中 使 用 了 非 对 称 加 密 、 对 称 加 密 以 及 HASH 算法 。 握 手 过 程 的 简单 摘 述 如 下 : 


(1) 浏览 器 将 自己 支持 的 一 套 加 密 规则 发 送 给 网 站 。 

(2) 网 站 从 中 选 出 一 组 加 密 算 法 与 HASH 算法 ， 并 将 自己 的 身份 信息 以 证 书 的 形式 发 回 给 浏 
览 器 。 证 书 里 面包 含 网 站 地 址 、 加 密 公 钥 以 及 证 书 的 颁发 机 构 等 信息 。 

G) 获得 网 站 证 书 之 后 浏览 器 要 做 以 下 工作 : 

O 验证 证 书 的 合法 性 〈 如 颁发 证 书 的 机 构 是 否 合法 、 证 书 中 包含 的 网 站 地 址 是 否 与 正在 访问 的 
地 址 一 致 等 ) ， 如 果 证 书 受 信任 ， 浏 览 器 栏 就 会 显示 一 个 小 锁 头 ， 否 则 会 给 出 证 书 不 受信 任 的 提示 。 

D 如 果 证 书 受 信任 或 者 用 户 接受 了 不 受信 任 的 证 书 ， 浏 览 器 就 会 生成 一 串 随 机 数 的 密码 ， 并 
用 证 书 中 提供 的 公 钥 加 密 。 

© 使 用 约定 好 的 HASH 计算 握手 消息 ， 并 使 用 生成 的 随机 数 对 消息 进行 加 密 ， 最 后 将 之 前 生 
成 的 所 有 信息 发 送 给 网 站 。 

(4) 网 站 接收 浏览 器 发 来 的 数据 之 后 要 做 以 下 操作 : 

O 使 用 自己 的 私 钥 将 信息 解密 并 取出 密码 ， 使 用 密码 解密 浏览 器 发 来 的 握手 消息 ， 并 验证 
HASH 是 否 与 浏览 器 发 来 的 一 致 。 

(2) 使 用 密码 加 密 一 段 握手 消息 ， 发 送 给 浏览 器 。 

(5) 如 果 浏 览 器 解密 并 计算 握手 消息 的 HASH 与 服务 端 发 来 的 HASH 一 致 ， 此 时 握手 过 程 
结束 ， 之 后 所 有 的 通信 数据 将 使 用 之 前 浏览 器 生成 的 随机 密码 ， 并 利用 对 称 加 密 算法 进行 加 密 。 


浏览 器 与 网 站 互相 发 送 加 密 的 握手 消息 并 验证 ， 目 的 是 保证 双方 都 获得 一 致 的 密码 ， 并 且 可 
以 正 间 地 加 密 、 解 密 数 据 ， 为 真正 数据 的 传输 做 一 次 测试 。 另 外 ，HTITPS 一 般 使 用 的 加 密 与 HASH 
算法 如 下 。 


(12 非 对 称 加 密 算 法 : RSA, DSA/DSS. 
(2) 对 称 加 窄 算法 : AES. RCA, 3DES. 
(3) HASH 算法 : MDS、SHA1、SHA256。 


其 中 ， 非 对 称 加 密 算 法 用 于 在 握手 过 程 中 加 密生 成 的 密码 ， 对 称 加密 算 法 用 于 对 真正 传输 的 
数据 进行 加 密 ， 而 HASH 算法 用 于 验证 数据 的 完整 性 。 由 于 浏览 器 生成 的 密码 是 整个 数据 加 密 的 
关键 ,因此 在 传输 的 时 候 使 用 非 对 称 加 密 算 法 对 其 加 密 。 非 对 称 加 密 算 法 会 生成 公 钥 和 私 钥 ， 公 包 
只 能 用 于 加 密 数 据 ， 可 以 随意 传输 ， 而 网 站 的 私 钥 用 于 对 数据 进行 解密 ， 所 以 网 站 都 会 非常 小 心地 
保管 自己 的 私 钥 ， 防 止 泄漏 。 

SSL 握手 过 程 中 有 任何 错误 都 会 使 加 密 连 接 断 开 , 从 而 阻止 隐私 信息 的 传输 , 正 是 由 于 HTTPS 
非常 安全 ,攻击 者 无 法 从 中 找到 下 手 的 地 方 ， 因 此 更 多 地 采用 假 证 书 的 手法 来 欺骗 客户 端 ， 从 而 获 
取 明 文 的 信息 。 
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iB KL fito JP Yn [8] HAS i ROS VOR] EIFE NRE, Pr FH ES A 3 EA 30S LER BASE 
SE. TE CUR) 通过 输入 URL JAE SET 4 f RARR AE RKE, TEX TSCK HERI 
市 有 请 求 参 数 , TORTE TÉ n rp B E Hi Ze rH 23 98 EB — T «sd i SK E E WES Js JT nh S 
AARS i 6] V SK IC DACIA BIA UV ZR AN ZI E f 3E A ZB «73 Y E77 BLUES 
5132955 A Y8, AENA E Tr Headers KERNE, BRRR RIZE OK HUS IG ZR D o 

请 求 头 的 参数 如 下 。 


(1) Accept: text/html, image/* (浏览 器 可 以 接收 的 文件 类 型 ) 。 

(2) Accept-Charset: ISO-8859-1 (浏览 右 可 以 接收 的 编码 类 型 )。 

(3) Accept-Encoding: gzip,compress ( 浏 遇 圳 可 以 接收 的 压缩 编码 类 型 ) 。 

(4) Accept-Language: en-us,zh-cn (浏览 器 可 以 接收 的 语言 和 国家 类 型 ) 。 

(5) Host: 请 求 的 主机 地 址 和 端口 。 

(6) If-Modified-Since: Tue, 11 Jul 2000 18:23:51 GMT 〈 某 个 页 面 的 缓存 时 间 ) 。 
(7) Referer: 请 求 来 日 于 哪个 页 面 的 URL. 

(8) User-Agent: Mozilla/4.0 (compatible, MSIE 5.5, Windows NT 5.0， 浏 究 占 相关 信息 ) 。 
(9) Cookie: 浏览 右 暂 存 服务 右上 友和 送 的 信息 。 

(10) Connection: close(1.0)/Keep-Alive(1.1) CHTTP 请 求 版 本 的 特点 )〉。 

(11) Date: Tue, 11 Jul 2000 18:23:51 GMT 请求 网 站 的 时 间 )。 


一 个 标准 的 请 求 基 本 上 都 市 有 以 上 属性 。 在 网 络 爬 虫 中 ， 请 求 头 一定 要 有 User-Agent， 其 他 
的 属性 可 以 根据 实际 需求 添加 ,因为 反 疏 虫 通 章 检测 请 求 头 的 Referer 和 User-Agent, m Cookie 不 
能 添加 到 请 求 头 。 除 此 之 外 ， 还 有 一 些 比较 特殊 的 请 求 头 信息 ， 如 Upgrade-Insecure-Requests 〈 告 
诉 服务 器 ， 浏 览 圳 可 以 处 理 HTTPS 协议 ) 、X-Requested-With (判断 是 否 Ajax 请 求 ) 等 。 

以 下 是 Python 里 面 一 个 完整 的 请 求 凑 ， 以 字典 格式 生成 ， 代 码 如 下 : 


Headers - { 

'Accept': 'text/html,application/xhtml-«xml, 
application/xml:qg-0.9 ,*/*790—0.8', 

"Accept Lbangludgeoc': “zh CN,zh;gq-0.8'; 

‘Cache Control’: tmax age- 0t, 

'User-Agent': ' Mozilla/5.0 (Windows NT 6.3; 
WOW64; rv:41.0) Gecko/20100101 Firefox/41.0', 

"ConnectTron'- 'Ecep-aldltwe*, 

'Referer': 'https://movie.douban.com/') 
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2.3 Cookies 


Cookies 也 可 以 称 为 Cookie， 指 东 些 网 站 为 了 辩 列 用 尸身 份 、 进 行 Session 跟踪 而 储存 在 用 户 
本 地 终端 上 的 数据 。 

一 个 Cookies 就是 存储 在 用 尸 主机 浏览 右 中 的 文本 文件 。Cookies 是 纯 文 本 形式 ， 它 们 不 包含 
任何 可 执行 代码 。 服 务 器 告诉 浏 贤 占 将 这 些 信 息 存 储 ， 并 且 每 个 请 求 中 都 将 该 信息 返回 到 服务 器 。 
服务 占 之 后 可 以 利用 这 些 信 息 来 标识 用 户 , 多 数 震 要 登录 的 网 站 通 弟 会 在 用 户 登 录 后 将 用 尸 信息 写 
入 Cookies， 只 要 这 个 Cookies 存在 并 且 合 法 ， 就 可 以 目 由 地 浏览 这 个 网 站 的 所 有 站 点 。Cookies 只 
是 包含 数据 ， 就 其 本 驴 而 言 并 不 有 害 。 

服务 器 可 以 利用 Cookies 包含 的 信息 判断 在 HTTP 传输 中 的 状态 。Cookies 最 由 型 的 应 用 是 判 
定 注 册 用 户 是 否 已 经 登录 网 站 和 保留 用 户 信息 以 使 简化 登录 手续 。 

一 般 Cookies 所 具有 的 属性 如 下 。 

Domain: 域 ， 表 示 当 前 Cookies 属于 哪个 域 或 子 域 下 面 。 

Path: 表示 Cookies 的 所 属 路 径 。 

Expire Time/Max-Age: 表示 Cookies 的 有 效 期 。 

Secure: 表示 该 Cookies 只 能 用 HTTPS 传输 。 

Httponly: 表示 此 Cookies 必须 用 HITP 或 HITPS 传输 。 
HasKeys: 通过 该 值 指示 Cookie 是 否 含有 子 键 ， 返 回 一 个 bool 46. 
Name: 表示 Cookie 的 名 称 。 

Value: 单个 Cookie 的 值 ， 

Values: 单个 Cookie 所 包含 的 键 值 对 的 集合 ， 


Cookies 的 优点 如 下 。 


(1) 极 高 的 扩展 性 和 可 用 性 。 

(2) 通过 民 好 地 编程 控制 保存 在 Cookie 中 的 Session 对 象 的 大 小 。 
(3) 通过 加 密 和 安全 传输 技术 (SSL) 减少 Cookie 被 破解 的 可 能 性 。 
(4) 只 在 Cookie 中 存放 不 敏感 数据 ， 即 使 被 次 也 不 会 有 重大 损失 。 
(5) 可 控制 Cookie 的 生命 期 ， 使 之 不 会 永远 有 效 。 


Cookies 的 缺点 如 下 。 


(1) Cookie 数量 和 长 度 的 限制 。 每 个 domain 最 多 只 能 有 20 条 Cookie， 每 个 Cookie 长 度 不 
能 超过 4KB， 和 否则 会 被 截 掉 。 

(2) 安全 性 问题 。 如 果 Cookie 被 拦截 ， 束 有 可 能 被 取得 所 有 的 Session 信息 。 

(3) 菏 些 状态 不 可 保存 在 客户 问 。 例 如 ， 为 了 防止 重复 提交 表 蛙 ， 雷 要 在 服务 右 问 保存 一 个 
计数 器 。 如 果 把 这 个 计数 占 保 存在 客户 疾 ， 那 么 它 起 不 到 任何 作用 。 
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2.4 HIML 


HTML 是 超 文 本 标记 语言 ， 标 准 通用 标记 语言 下 的 一 个 应 用 。“ 超 文本 ”就 是 指 页 面 内 可 以 
包含 图 片 、 链 接 ， 甚 至 音乐 、 程 序 等 非 文字 元 素 。 超 文本 标记 语言 的 结构 包括 “ 头 ” 部 分 Head) 
和 “主体 ”部 分 (Body) ， 其 中 “ 头 ” 部 分 提供 关于 网 页 的 信息 ，“ 主 体 ” 部 分 提供 网 页 的 具体 
内 容 。 

有 息 虫 开发 对 HTML 的 要 求 是 能 看 懂 HIML 各 个 标签 的 含义 ， 了 解 标 签 的 属性 作用 以 及 整个 
HTML 布局 设计 。 下 面 来 看 一 个 简单 的 HTML 文档 的 结构 : 


<!DOCTYPE html» 4 声明 为 HTML5 文档 

«html»4 元 素 是 HTML 页 面 的 根 元 素 

«head»4 元 素 包 含 了 文档 的 元 (meta) 数据 

«meta charset-"utf-8"»4 元 素 可 提供 有 关 页 面 的 元 信息 (meta-information)， 主 要 是 描述 
和 关键 词 

<title>Python</title># 元 素描 述 了 文档 的 标题 

«/head» 

«body» 4 元 素 包 含 了 可 见 的 页 面 内 容 

<h1> 我 的 第 一 个 标题 </h1> 4 定义 一 个 标题 

<p> 我 的 第 一 个 段落 。</p> 4 元 素 定义 一 个 段落 

</body> 

</html> 


一 个 完整 的 网 页 必定 以 <html></html> 为 开头 和 结尾 ， 整 个 HTML 可 分 为 两 部 分 : 


(1) <head></head>， 主 要 是 对 网 页 的 描述 、 图 片 和 和 JavaScript 的 引用 。<head> 元 素 包 含 所 
有 的 头 部 标 位 元 素 。 在 <head> 元 条 中 可 以 插入 脚本 〈scripts) 、 梓 式 文件 CCSS) 及 各 种 meta 信 
尽 。 该 区域 可 添加 的 元 素 标 签 有 <title>、<style>、<meta>、<link>、<script>、<noscript> 和 <base>。 

(2) <body></body> 是 网 页 信息 的 主要 载体 。 该 标签 下 还 可 以 包含 很 多 类 别 的 标签 ， 不 同 的 
标签 有 不 同 的 作用 ， 标 签 以 <> 开 头 ， 以 < 结尾 ，< 全 和 </> 之 间 的 内 容 是 标签 的 值 和 属性 ， 每 个 标 
签 之 四 可 以 是 相互 独立 的 ， 也 可 以 是 租 套 、 层 层 递 进 的 关系 。 


根据 这 两 个 组 成 部 分 就 能 很 容易 地 分 析 整 个 网 页 的 布局 。 其 中 ，<body></body> 是 整个 HTML 
的 重点 部 分 ， 通 过 示例 讲述 如 何 分 析 <body></body>: 


<body> 

<h1> 我 的 第 一 个 标题 </h1> 
«div» 

«p» Pythons/p-» 
«/div» 

«h2» 

«p» 

«a» Pythonc/a» 
«/p» 

cris 

</body> 
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(1) <hl> 和 <div> 是 两 个 不 相关 的 标签 ， 两 个 标签 是 相互 独立 的 。 

(2) <div> 和 <p> 是 散 套 关系 ，<p> 的 上 一 级 标签 是 <div>。 

(3) <hl> 和 <p> 这 两 个 标签 是 毫 无 关系 的 。 

(4) <h2> 标 签 包 合 一 个 <p> 标 签 ，<p> 标 签 再 包含 一 个 <a> 标 签 ， 一 个 标签 可 以 包 合 多 个 标签 
在 其 中 。 


除 上 述 示例 的 标签 之 外 ， 大 部 分 标签 都 可 以 在 <body></body> 中 添加 ， 常 用 的 标签 如 表 2-1 所 


表 2-1 HTML 常用 的 标签 


列表 项 目 


25 JavaScript 


JavaScript 是 一 种 直译 式 脚 本 语言 ， 是 一 种 动态 类 型 、 弱 类 型 、 基 于 原型 的 语言 ， 内 置 支持 类 
型 。 它 的 解释 器 被 称 为 JavaScript 引擎 ， 为 浏览 器 的 一 部 分 ， 广泛 用 于 客户 端的 脚本 语言 ， 最 早 是 
在 HTML 网 页 上 使 用 的 ， 用 来 给 HTML 网 页 增加 动态 功能 。 

JavaScript 脚本 语言 同 其 他 语言 一 样 ， 有 上 自身 的 基本 数据 类 型 、 表 达 式 和 算术 运算 符 及 程序 的 
基本 框架 。JavaScript 提供 了 4 种 基本 的 数据 类 型 和 两 种 特殊 的 数据 类 型 用 来 处 理 数据 和 文字 。 而 
变量 提供 存放 信息 的 地 方 ， 表 达 式 则 可 以 完成 较 复杂 的 信息 处 理 。 

有 时 候 分 析 网 站 需要 理解 条 些 JavaScript 的 功能 ， 如 茶 些 特殊 的 数据 会 存放 在 JavaScript 中 。 
以 12306 全 国 站 点 为 例 ， 如 图 2-2 所 示 。 
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从 图 2-2 中 可 以 看 到 ， 不 同 的 站 点 有 对 应 的 英文 字母 ， 代 表 站 点 的 编码 信息 ，JavaScript 存储 
数据 主要 使 用 变量 的 形式 。 

JavaScript 还 能 根据 用 户 触 发 某 些 事 件 对 用 户 的 操作 进行 加 工 处 理 。 例 如 用 户 登 录 信 息 设 置 加 
RS. MEXADXULP ECIAM ION. EERENS 3 一 系列 事件 由 
JavaScript 独立 完成 。 要 用 疏 虫 实现 该 功能 ， 就 要 分 析 JavaScript 如 何 执行 整个 用 户 登 录 过 程 。 

下 面 通过 分 析 一 个 简单 的 例子 ， 来 进一步 了 解 JavaScript 事件 的 触发 原理 : 


<I DOCTYPE html> 
<html> 
<head> 
<meta charser-"utf-8"» 
«script» «!-- //JavaScript 代码 -> 
function validateForm{} | 
var x = document. forms |"myForm"] |[ tname | .value; 
| 
alert ("m 需要 输入 名 字 。 R 


return false: 


} 
else{alert ("你 的 名 字 提 交 成 功 ")]} 
} 
</script> 
</head> 
<body> 


<!—- //html 表单 ， 当 点 击 按钮 "提交 "后 会 触发 onsubmit 这 个 事件 ， 执 行 JavaScript 代码 -5 
«form name-"myForm" action-"" onsubmit-"return validateForm()" method-"post"» 
4f: «input type "text" name-"fname"» 

«input type="submit" value-"j"- 

«/form» 

«/body» 

«/html1» 


JavaScript 事件 的 触发 过 程 


(1) HTML 根据 <form></form> 标 签 相 应 地 生成 一 个 表单 。 

(2) 当 用 户 在 表单 输入 内 容 后 ， 单 击 提交 按钮 ， 就 会 触发 <form></form> 表 单 里 所 指 同 的 
validateForm() 方 法 ， 执 行 相应 的 JavaScript 代码 。 

(3) validateFormO 会 判断 输入 的 值 是 否 为 宝 。 如 果 输 入 的 值 为 裤 ， 就 提示 输入 名 字 ; FA 
的 值 不 为 室 ， 则 提示 “提交 成 功 ”。 
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2.6 JSON 


JSON (JavaScript Object Notation, JavaScript 对 象 标记 ) 是 一 种 轻 量 级 的 数据 交换 格式 ， 采 用 
完全 独立 于 编程 语言 的 文本 格式 来 存储 和 表示 数据 。 简洁 和 清晰 的 层次 结构 使 得 JSON 成 为 理想 的 
数据 交换 语言 ， 另 于 阅读 和 编写 ， 同 时 也 易于 机 大 解析 和 生成 ， 并 有 效 地 提升 网 络 传输 效率 。 

在 JavaScript 语言 中 ， 一 切 都 是 对 象 。 因 此 ， 任 何 文 持 的 类 型 都 可 以 通过 JSON 来 表示 ， 例 
如 字符 串 、 数 字 、 对 象 、 数 组 等 。JSON 格式 说 明 如 下 : 


CD 对 象 表 示 为 键 值 对 。 
(2) 数据 由 逗号 分 隔 。 
G) 人 花 括 写 保存 对 象 。 
(4) 方 括号 保存 数组 。 


JSON 的 书写 格式 是 : 键 / 值 对 ， 包 括 字 段 名 称 〈 字 符 串 ) ， 后 面 写 一 个 冒号 ， 然 后 是 值 。 例 
如 “name”:“Tom”， 等 价 于 JavaScript 语句: name = “Tom” 

JSON HHEH ERT EMEF RRO ~ TIP, EIE (True SX False) 、 数 组 (在 方 括 
号 中 ) 、 对 象 (Eths P) M Null, 

例子 如 下 : 

MyJ5on = i1 

"name" "Python", 

"Duddinegat c f "province = om noltor Op ONIS 

} 

JSON 的 格式 是 用 花 括 号 表示 的 , 代码 MyJSon 里 包含 两 个 属性 , 分 别 是 name 和 address. name 
的 值 是 “Python”; address 的 值 是 杉 套 新 的 JSON， 里 面包 含 province 和 city 属性 ， 值 为 “广东 ” 
和 “广州 ”。 

一 个 JSON Ein LACE € JSON, tn] UAE JSON 数组 ， 都 是 以 键 - 值 的 形式 表现 。 在 数据 
结构 上 ，JSON 与 Python 里 的 字典 非常 相似 。 


27 Ajax 


Ajax 不 是 一 种 新 的 编程 语言 ， 而 是 一 种 用 于 创建 更 好 、 更 快 以 及 区 互 性 更 强 的 Web 应 用 程序 
的 技术 。 使 用 JavaScript 同 服 务 占 提出 请 求 并 处 理 啊 应 而 不 阻 守 用 户 ， 核 心 对 象 是 
XMLHTTPRequest. 通过 这 个 对 象 ， JavaScript 可 在 不 重 载 页 面 的 情况 下 与 Web 服务 器 交换 数据 ， 
即 在 不 需要 刷新 页面 的 情况 下 就 可 以 产生 局 部 刷新 的 效果 。 

Ajax EÙ a Web 服务 名 之 间 使 用 异步 数据 传输 (HTTP 请 求 ) ， 这 样 束 可 以 使 网 页 从 服 
务 器 请 求 少量 的 信息 ， 而 不 是 整个 页 面 。 

JavaScript, XML. HTML 5 CSS 在 Ajax 中 使 用 的 Web 标准 已 被 恨 好 定义 ， 并 被 所 有 的 
EMA idR x RR. Ajax 应 用 程序 独立 于 浏览 句 和 和 平台。 

Web 应 用 程序 比 轩 面 应 用 程序 有 优势 ， 能 够 涉及 三 大 的 用 户 ， 更 易 安 装 及 维护 ， 也 更 易 开 友 。 
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判断 网 页 数据 是 否 使 用 Ajax 最 简单 的 方法 是 : 触 上 有 事件 之 后 ， 判 断 网 页 是 否 友 生 刷新 状态 。 
如 果 网 页 没有 发 生 刷 新 ， 数 据 驶 目 动 生成 ， 说 明 数 据 的 加 载 是 通过 Ajax 生成 并 泻 染 到 网 页 上 的 ; 
有 反之， 数据 是 通过 服务 占 后 台 生 成 并 加 载 的 。 

两 种 数据 加 载 泻 染 方 式 分 别 由 前 端 和 后 病 完 成 ， 实 现 的 方式 和 原理 也 不 同 。 判 断 数 据 加 载 方 
式 是 息 虫 开发 必 备 的 基本 技能 之 一 , 正确 地 判断 数据 加 载 方式 才能 找到 数据 来 源 的 渠道 , 最 终 才能 
找到 抓 取 的 目标 。 


28 本 章 小 结 


本 章 主要 介绍 了 与 编写 爬虫 程序 相关 的 Web 前 痛 开 发 技术 。 

前 站 开发 技术 是 爬虫 开发 人 员 必 备 技能 之 一 ， 也 是 编写 爬虫 程序 的 基础 。 前 闯 技 术 的 主要 作 
用 是 分 析 各 类 网 站 的 设计 淋 构 ,以便 有 和 针对 性 地 编写 候 虫 脚本 。 从 整个 候 虫 开发 周期 来 看 ,分 析 网 
站 架构 是 最 为 耗 时 的 一 环 ， 也 是 爬 里 开 友 的 核心 之 一 ， 可 以 说 ， 疏 颗 的 开 有 都 是 基于 网 站 的 分 析 为 


前 提 。 
关于 前 问 开 发 技术 ， 读 者 应 重点 掌握 以 下 内 容 。 
e HTTP 5 HTTPS: 互联 网 上 应 用 最 为 广泛 的 一 种 网 络 协议 。 目前 所 有 网 站 开发 都 基于 该 协 


议 ， 也 是 网 站 的 实现 原理 。 

请 求 头 : 基于 HTTP 与 HTTPS 协议 实现 ， 其 作用 是 在 通信 之 间 实 现 信息 传递 。 熟 知 各 种 
请 求 类 型 ， 对 人 疏 虫 中 编写 请 求 头 有 指导 性 作用 。 

Cookies: 存储 在 用 户主 机 浏览 器 中 的 文本 文件 ， 主 要 让 服务 器 识别 各 个 用 户 身 份 信息 。 
HTML: 服务 器 返回 的 网 页 内 容 ， 一 般 由 服务 器 后 台 生 成 。 网 站 大 部 分 数据 来 源 于 此 ， 诸 
& HTML 布局 和 各 个 标签 的 作用 ， 有 利于 数据 抓 取 和 清洗 . 

JavaScript: 主要 实现 网 页 的 动态 功能 及 用 户 交互 。 要 懂得 分 析 JavaScript 代码 ， 尤 其 是 数 
据 加 密 处 理 。 

JSON: 表示 一 个 JavaScript 对 象 的 信息 ， 本 质 是 一 个 特殊 的 字符 串 。 

Ajax: 主要 是 前 端 数据 加 载 和 泻 染 技术 ， 其 响应 内 容 大 部 分 以 JSON 格式 为 主 。 


Chrome 分 析 网 站 


31 Chrome 开发 工具 


浏览 右 是 从 事 编程 开 友 人 员 必 备 的 开 友 工具 。 世 界 上 五 大 主流 浏 贞 需 分 别 是 :IE、Opera、Google 
Chrome. Safari 和 Firefox， 其 中 Chrome 和 Firefox 是 编程 开发 人 员 的 自选 ， 主 要 是 两 者 运行 速度 、 
扩展 性 和 用 户 体 验 都 符合 开 友 人 员 所 需 。 

本 书 选择 Chrome 作为 分 析 网 站 的 工具 ， 因 为 其 简洁 、 速 度 快 (无 论 是 局 动 速度 、 贝 面 解析 速 
度 还 是 JavaScript 执行 速度 ) ， 对 HIMLS 和 CSS3 的 支持 也 比较 完善 。 

以 分 析 豆 办 电影 为 例 , 先 打 开 Chrome 23] i28 » EA S238 H8 I9] 71 Chttps://movie.douban.com/) 。 
单 击 Chrome 的 开发 者 工具 快捷 键 : F12) ， 如 图 3-1 所 示 。 


f Al Elements Console Sources Network Performance Memory Application Security Audits 


(€ 5 EM y | View I= Group by frame Freserve log Disable cache Offline No throttling Y 


ilter Regex Hide data URLs J| XHR JS CSS Img Media Font Doc WS Manifest Other 


Recording network activit 


Perform a request or hit F5 to recorc 


图 3-1 开发 者 模式 


还 可 以 通过 在 网 页 上 右 击 ， 选 择 “ 检 查 ”， 或 者 按 Ctrl+Shift+I 组 合 键 ， 如 图 3-2 所 示 ， 打 开 
开发 者 工具 界面 。 

开发 者 工具 的 界面 共有 9 个 标签 页 ,分 别 是 : Elements. Console, Sources, Network. Performance, 
Memory、 Application、Security 和 Audits。 

Chrome 开发 者 工具 以 Web ANE, n HT IEmB^ y, AAE Elements 和 Network 标 
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位 就 能 满足 大 部 分 的 爬虫 需求 。 其 中 ，Network 是 核心 部 分 。 


返回 (B) 
Bit (F) 
EAER) 


DFAA)... 


TTED(P)... 
RIRC)... 
翻 成 中 区 《简体 ) (T) 


查看 网 页 源 代 码 (V) Ctrl --U 
检查 [N) Ctrl+Shift+l 


图 3-2 开发 者 模式 


3.2 Elements 标签 


在 Elements 标签 中 允许 从 浏览 器 的 角度 看 页 面 ， 也 束 是 说 可 以 看 到 Chrome y% 94 rfr Pr gi dz 
的 HIML、CSS fll DOM (Document Object Model) 对 象 。 此 外 ， 还 可 以 编辑 内 容 更 改 页 面 显 示 效 
果 ， 如 图 3-3 所 示 。 


ieS ABS ”电视剧 排行 榜 。 分 类 影评 ” ”2015 年度 榜 单 。 2016 观 影 报告 


[x | Elements Console Sources Network Performance Memory Application — Security Audits 


ie E E 

movie/bundle.css" rel-' stylesheet” npe mes “|| Styles | Computed Event Listeners » 

bdiv id-"db-nav-movie" class-"nav"».«/div» | 

piscript id-"suggResult" type us -jquery sa .X/script» ilter :hov .cls F. 
«script src-"//j | s/n 

c936707 /mvie/bundle. js defer-"defer' «script» 


Y «div id-"wrapper"» zs 
Y«div id-"content' 区 域 1 
Y«div class-"grid-16-8 clearfix » 
¿div id- dale movie homepage top large" ad-status- 
"loaded" 5»«/div» == gë 
Y«div class-"article"» margin:k 6; 
«div id-"dale movie home main top" ad-status-"loaded"» | padding: ©; 
htm! body wrapper #content div Reed]: 


图 3-3 Elements 标 等 


图 3-3 F, Elements 标签 最 左边 的 于 按钮 用 于 快速 查找 网 页 元 素 ， 单 击 该 按钮 后 ， 在 网 页 上 
东 一 处 单 击 ， 束 会 目 动 显示 并 选中 该 元 系 在 HTML 里 的 位 置 。 

Elements 标签 分 成 两 部 分 ， 分 别 在 图 3-3 中 标 为 区 域 1 和 区 域 2， 两 个 区 域 相辅相成 。 区 域 1 
显示 整个 网 页 的 HTML 信息 ， 单 击 选 中 茶 一 行内 容 的 时 候 ， 区 域 2 的 Styles 标签 会 显示 当前 日 击 
选中 内 容 的 CSS 样式 , 并 可 对 元 又 的 CSS 进行 但 看 与 编辑 修改 。 Computed 显示 当前 选中 的 边 距 属 
性 、 边 框 属性 ， 用 图 像 显 示 一 个 整体 效果 。Event Listeners 是 整个 网 页 事件 触发 的 JavaScript， 如 图 
3-4 所 示 。 
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Styles Computed | Event Listeners | » 


Q W Ancestors All 


Pp DoMContentLoaded 


* beforeunload 
Y click 

* document 

* document 

* document 

* document 
load 
* mouseover 
* resize 
* scroll 


Y 


Wt Framework listeners 


图 3-4 Event Listeners 


通过 单 击 Event Listeners 下 的 某 个 JavaScript 会 自动 跳 转 到 Sources 标签 ， 显 示 当 前 JavaScript 
的 源码 ， 这 个 功能 可 快速 找到 JavaScript 代码 所 在 的 位 置 ， 对 分 析 JavaScript 起 到 快速 定位 作用 。 


3.3 Network 标签 


在 Network 标签 中 可 以 看 到 页 面 同 服务 占 请 求 的 信息 、 请 求 的 大 小 以 及 加 载 请 求 花费 的 时 间 。 
从 友 起 网 页 页 面 请 求 Request 后 分 析 HTTP 请 求 得 到 各 个 请 求 信 息 〈 包 括 状 态 、 类 型 、 大 小 、 所 用 
时 间 、Request 和 Response 等 ) 。Network 标签 的 结构 组 成 如 图 3-5 所 示 。 
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图 3-5 Network 标签 


Network 标签 主要 包括 以 下 5 个 区 域 。 


e Controls: 控制 Network 的 外 观 和 功能 。 
e Filters: 控制 Requests Table 具体 显示 哪些 内 容 。 
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> All: 返回 当前 页 面 全 部 加 载 的 信息 ， 就 是 一 个 网 页 全 部 所 需要 的 代码 、 图 片 年 请 求 。 
> XHR: ffit Ajax 的 请 求 链接 人 信息， 前面 讲 过 Ajax 核心 对 象 XMLHTIPRequest, XHR 
取 于 XMLHTTPRequest 的 缩写 。 
JS: +% ipit JavaScript 文件 。 
CSS: 主要 是 CSS 样式 内 容 。 
Img: 是 网 页 加 载 的 图 片 ， 爬 取 图 片 的 URL 都 可 以 在 这 里 找到 。 
Media: 是 网 页 加 载 的 媒体 文件 ， 如 MP3、RMVB 等 音频 视频 文件 资源 。 
Doc: Æ HTML 文件 ， 主 要 用 于 响应 当前 URL 的 网 页 内 容 。 
e Overview: 显示 获取 到 请 求 的 时 间 轴 信息 ， 主 要 是 对 每 个 请 求 信息 在 服务 器 的 响应 时 间 进 
行 记 录 。 这 个 主要 是 为 网 站 开发 优化 方面 提供 数据 和 参考， 这 里 不 做 详细 介绍 。 
Requests Table: 按 前 后 顺序 显示 所 有 捕捉 的 请 求 信息 , 单 击 请 求 信 息 可 以 查看 该 详细 信息 。 
e Summary: 显示 总 的 请 求 数 、 数 据 传 输 量 、 加 载 时 间 信 息 。 


v v V v wv 


5 个 区 域 中 ，Requests Table 是 核心 部 分 ， 主 要 作用 是 记录 每 个 请 求 信息 。 但 每 次 网 站 出 现 刷 
新 时 ， 请 求 列 表 都 会 清空 并 记录 最 新 的 请 求 信息 ， 如 用 户 登录 后 发 生 304 跳 转 ， 就 会 清空 跳 转 之 前 
的 请 求 信息 并 捕捉 跳 转 后 的 请 求 信息 。 

对 于 每 条 请 求 信息 ， 可 以 单 击 查看 该 请 求 的 详细 信息 ， 如 图 3-6 所 示 。 


[Filter  |LJ Regex LJ Hide data URLs (Alf | XHR JS CSS Img Media Font Doc WS Manifest 


Name | X Headers Preview Response Cookies Timing 
* General 

| jauery.min js | Response Headers (18) 

| | blank.gif > Request Headers (10) 


D| connect wechat png | yu er) 
la| connect sina weibo.png 


A| connect qq.png 


H| data:simage/png;base... 


| | favicon.ico 


图 3-6 请求 信息 


每 条 请 求 信息 划分 为 以 下 5 个 标签 。 

Headers: 该 请 求 的 HTTP 头 信 息 。 

Preview: 根据 所 选择 的 请 求 类 型 (JSON、 图 片 、 文 本 ) 显示 相应 的 预览 。 
Response: 显示 HTTP 的 Response 信息 。 

Cookies: 显示 HTTP 的 Request 和 Response 过 程 中 的 Cookies 信息 。 
Timing: 显示 请 求 在 整个 生命 周期 中 各 部 分 花费 的 时 间 。 


常用 的 标签 有 Headers. Preview 和 Response. Headers 用 于 获取 请 求 链 接 、 请 求 头 和 请 求 参 数 ; 
Preview 和 Response 用 于 显示 服务 占 返 回 的 啊 应 内 容 。 
Headers 标签 划分 为 以 下 4 部 分 。 
e General 记录 请 求 链 接 、 请 求 方式 和 请 求 状态 码 ， 
e Response Headers: 服务 器 端的 响应 头 ， 其 参数 说 明 如 下 。 
> Cache-Control: 指定 缓存 机 制 ， 优 先 级 大 于 Last-Modified. 
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> Connection: 包含 很 多 标签 列表 ， 其 中 最 第 见 的 是 Keep-Alive 和 Close， 分 别 用 于 向 服 
务 器 请 求 保 持 TCP 连接 和 断 开 TCP 连接 。 
Content-Encoding: 服务 器 通过 这 个 头 告 诉 e 览 器 数据 的 压缩 格式 。 
Content-Length: 服务 个 头 告诉 浏览 器 回 送 数据 的 长 度 。 
Content-Type: 服务 器 通过 这 个 头 告 诉 浏览 器 回 送 数据 的 类 型 。 
Date: 当前 时 间 值 。 
Keep-Alive: 在 Connection 为 Keep-Alive 时 ， 该 字段 才 有 用 ， 用 来 说 明 服 务 器 估计 保 
留连 接 的 时 间 和 允许 后 续 几 个 请 求 复 用 这 个 保持 着 的 连接 。 
> Server: 服务 器 通过 这 个 头 告诉 浏览 器 服务 器 的 类 型 。 
> Vary: 明确 告知 缓存 服务 器 按照 Accept-Encoding 字段 的 内 容 分 别 缓存 不 同 的 版 本 。 
e Request Headers: 用 户 的 请 求 头 。 其 参数 说 明 如 下 
> Accept: 告诉 服务 器 客户 端 支持 的 数据 类 型 。 
> Accept-Encoding: 告诉 服务 器 客户 端 支持 的 数据 压缩 格式 。 
Accept-Charset: 可 接受 的 内 容 编 码 UTF-8. 
Cache-Control: 缓存 控制 ， 服 务 器 控制 浏览 器 要 不 要 缓存 数据 。 
Connection: 处 理 完 这 次 请 求 后 ， 是 断 开 连接 还 是 保持 连接 。 
Cookie: 客户 可 通过 Cookie 向 服务 器 发 送 数 据 ， 让 服务 器 识别 不 同 的 客户 端 。 
Host: 访问 的 主机 名 。 
Referer: 包含 一 个 URL， 用 户 从 该 URL 代表 的 页 面 出 发 访问 当前 请 求 的 页 面 ， 当 浏览 
器 向 Web 服务 器 发 送 请 求 的 时 候 ， 一 般 会 带 上 Referer， 告 诉 服务 器 请 求 是 从 哪个 页 面 
URL 过 来 的 ， 服 务 器 借 此 可 以 获得 一 些 信息 用 于 处 理 。 
> User-Agent: 中 文 名 为 用 户 代理 ， 简 称 UA， 是 一 个 特殊 字符 串 头 ， 使 得 服务 器 能 够 识 
别 客户 使 用 的 操作 系统 及 版 本 、CPU 类 型 、 浏 览 器 及 版 本 、 浏 览 器 泻 染 引 营 、 浏 览 器 
语言 、 浏 览 器 插件 等 。 
e Query String Parameters; 请 求 参数 。 主 要 是 将 参数 按照 一 定 的 形式 (GET 和 POST ) 传递 
给 服务 器 ， 服 务 器 通 MAC ALIAE 的 响应 ， 这 是 客户 端 和 服务 端 进 行 数据 交互 的 
ART NS 


Headers 标签 的 内 容 看 起 来 很 多 ， 但 在 实际 使 用 过 程 中 ， 丰 虫 开发 人 员 只 需 关 心 请 求 链接 、 请 
求 方式 、 请 求 头 和 请 求 参数 的 内 容 即 可 。 而 Preview 和 Response 是 服务 器 返回 的 结果 ， 两 者 之 间 
对 不 同类 型 的 啊 应 结果 有 不 同 的 显示 方式 : 
(1) 如 果 返 回 的 结果 是 图 片 ， 那 么 Preview 表示 可 显示 图 片 内容 ， Response 表示 无 法 显示 。 
(2) 如 果 返 回 的 是 HTML 或 JSON, 那么 两 者 皆 能 显示 , 但 在 格式 上 可 能 会 存在 细微 的 差异 。 


3.4 分 析 QQ 音乐 


v V NV NON 


v V NV NV NN 


现在 以 QQ 音乐 某 一 歌手 页 面 的 分 析 为 例 Cy.qq.com/n/yqq/singer/0025NhIN2yWItP4.html) 讲述 
如 何 使 用 Chrome 开发 者 工具 分 析 网 站 ， 如 图 3-7 所 示 。 
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图 3-7 歌手 信息 


从 图 3-7 中 可 以 看 到 ， 在 Network 标签 下 捕捉 到 很 多 请 求 信 息 ， 请 求 类 型 有 document. png. 
font 和 script 等 ， 分 别 对 应 HTML 文件 、 图 片 、 字 体格 式 和 JavaScript 脚本 。 

Fh: "Filters" FH Doc 标签 (Doc 是 当前 网 页 的 HTML 文件 ) ， 发 现 有 两 个 请 求 信息 ， 分 
别 是 “0025NhIN2yWrP4.html” 和 “xhr proxy utf8.html”。 从 请 求 的 命名 可 以 看 出 ， 第 一 个 请 求 与 
网 站 的 URL 是 一 臻 的。 再 三 看 “0025NhIN2yWIrP4.html” 的 啊 应 内 容 (Preview 标签 ) ， 可 以 使 用 
“CtrltF” 快 速 查找 歌曲 信息 ， 如 图 3-8 所 示 。 
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233|clasz-"list menu item list menu play" title-"]ÉBgi"- 
2:38 


137| item list menu add" title="I" aris-nasponupsz"true" data-targei-"menu add" 
235 


2j 63requests | 107 KB7 15.-| Aa. «< 


图 3-8 ”快速 得 找 歌 曲 信息 


在 Doc 中 虽 能 找到 歌曲 名 、 专 辑 和 时 长 ， 但 无 法 找到 更 多 的 歌曲 信息 。 和 歌曲 信息 有 可 能 是 由 
其 他 方式 生成 的 ， 网 站 数据 生成 只 有 前 端 (Ajax 或 JSONP〉 和 后 端 (服务 器 ) 两 种 方式 。 从 图 3-8 
返回 的 结果 来 看 ， 数 据 不 可 能 是 从 后 端 生 成 的 ， 那 么 就 可 能 是 由 前 端 加 载 生 成 的 。 


JSONP (JSON With Padding ) 是 JSON 的 一 种 “使 用 模式 ”， 可 用 于 解决 主流 浏览 器 的 跨 
域 数据 访问 问题 。 


前 端 加 载 的 数据 有 可 能 记录 在 Chrome 开发 者 虐 具 的 “XHR” 或 “JS” 中 ,分 别 查 看 两 个 标签 
里 面 的 请 求 信息 ， 最 终 发 现 歌 曲 信 息 存 放 在 JS 下 的 某 个 请 求 中 ， 如 图 3-9 和 图 3-10 所 示 。 
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Filter - O Hide data URLs Al] | XHR. 由 CSS Img Media Font Doc WS Manifest Other 


Name * Headers Proview | Amoore Cookies Timing 


[-] mad.je?r22522785 v HusiclsanLallbscksinger track([code: B-f jJ 
E singer. 0877522 js? max age-315... cede: B 
rer T Y dete: (list: [=]; singer id: "4558", singer rid: "88025NhlN2yWrP4", singer name: "Aie", total: 394) 
ijs’ mar egez... v list: [,.] 
VES [su 
E| retumcode 486a5bc.js?max age... * BÀ: [(Flisten countl: "1B46850758^, Fuplnsd time: "2816-86-86 18:21:17", index: 1 
[E] Feg music, red dota fcg?g tk- 78... Flisten cnuntl: "18458758" 
Fupload tine: "2016-66-66 15:21:17" 
index: 1 
[E] feg; order singer getnum.feg?g c... RE d 
| | feg vB singer track cp.fcg?3 tk-... listentount: à 
*musicDaeta: [elbumdesc: "", albumid: 1458731, albumnmid: "ü&3RPaRIliFpYd", albumneme: "BLte6BEIUHISC, alertid: 


cx 


, lsnmew: BH, listenLount: 


[| eg, get profile homepage fcg?g... 


E| feg 8 singer. alburm.fcg?format... i 

[| Fg singer_ mefeg?exd- 2053605... alburdd: 1458791 

fcg singer mv.fcg?ckd- 20534305... albuemid: "desREaRIl1iFoYó" 

albumname: "JE7zETEBNERIBREEC 

alertid: 188882 
snelangcD: 8 

mist 7818512,jg1max age-315... cdIdx: 8 

interval: 215 

lzoniy: B 

label: "46115636018435776513" 

albumlist 7728554. &7max age... msgid: 14 

gethatkeycgrg tk TEB2407 76... sav: [payalnum: is payalbumprice: 2000, paydownloas: l, payinfo: 1, paynlay: H, paytrackmauth: 1,4] 
areview: [trybegin: 55138, tryend: 55421, trysize: 325583] 


frg vB simsinger;fzg?uttüz T&tsin... 


emajr.js?max age- 2592000 


songlist f2bdbf4.s?max age-3 1... 


frg musiclist getrytav. Tog? dind... 


downlomd 5c3ed02 j:? max age... 


dialog 151467 is max age-315... sin [id: 4558, mid: "GG25NhlN2yWr?43", name: "fepe"! 
| statzzsld-58495363& -15138671.. ize5 


sizeape: 243258831 
sizetlac: 24971563 
sizeogg: 5991184 

songid: 107152878 


songname: "BASH" 
songorig: "HASH" 


图 3-9 ”响应 内 容 


Filter = Hide dats URLs Al XHR Es C35 Img Media ^ Doc WS Manifest Other 
Mame * | Headers Preview Response 

| mndjs?rz 2522785 * General 
H| singer 0e77525,js?max age-315... Request URL: nttps://c.y.qg.cam/vü/4cg-hin/fcg vH singer track cp.scg?g tkes7BE245775&RjsanpCmllhsckesMusicJsnnrallhacksinger track&laoginldinss543014438 

[ere TETTE ree pastllinzB&rFanmeatejspnp&intnarseteutrFBArutCharzetegtr-BA&natice-a&nlatenrmeyqo3&nsedHeurade-dEsingsrmidedad25HhnlNHiyWePiEnrderslisten&hsgin-dRnums3BAsrcn 

ICATIITI 3n33u0B. x^ L1 ex 7 
a à =A gstatuz=1 

| enrm DES S EE b 

| retumcade 485a5bcis?max age.. Request Method: GET 
E] fc rmusiz red. data.fegrg tk- 7B... Status Code: & 238 

| fe get profile Famegege fcg?3... Remate Address: 59.37.36. 120:443 

: umts Referrer Policy: ra-referrer-uhen-sosg-ade 

器 fag: ceder. singer getnum-fog?g t.. y NE 
|_| feg vB singer track cpdcgzg tk-..  " Response Headers (9) 


| frg 中 singer album-cg?format... * Request Headers (107 


日 fg singer msfeg tei - 2053605... Y Query String Parameters vica source view URL encoded 
g tk: 785243776 

RES d jsonpCallback: HusicJsonCallbacksinger track 

| fag, v8 simsingerfcgTuttüiz 1&sin... laginllin: 552381443 


| feg singer mufeg?cid - 2053605... 


L| errajijstrmax sge-z592000 hostUin: 8 
format; jsonp 
in'Charzet: uta 
oculi Charset: utf-& 


motie: & 


| mvisz 7815512. jsTmax, 2gez315... 
上 | songlist F2edbfá.jz?max 298-731... 
| feq massizlist getrnydtav.feg dirid... 
| albumlist, 7723654 35? max age... platform: yoq 
E] gethotkey.feg?g t= T86249778.., needMewCode: à 
simgermid: aa25Hh1N2yHrP4 


| dewnlaad 5r3a402 js ima age... p 
: ^ arder: listen 


日 | dialog 16£4870.js? max agez 315... 


begin: à 
| ztaiz?sld-528485563& -1513871.. nume 3a 
snngstabus: 1 


图 3-10 请求 信息 


从 图 3-9 和 图 3-10 分 析 得 知 , 请 求 方式 是 GET, Query String Parameters 是 记录 该 请 求 的 参数 。 
因为 请 求 方式 是 GET， 上 所 以 请 求 参数 也 可 以 在 请 求 链接 上 找到 。 

再 看 请 求 参 数 ， 大 部 分 请 求 参数 是 可 以 明确 知道 的 ， 唯 独 参 数 singermid 无 法 确定 。 从 参数 的 
命名 来 看 ， 这 应 该 是 歌手 的 ID 信息， 也 是 网 站 用 于 标记 歌手 唯一 的 属性 ， 所 以 要 获取 歌手 的 
singermid 可 能 需要 从 其 他 请 求 上 获取 。 

根据 上 述 例子 ， 可 简单 总 结 出 分 析 网 站 的 步骤 如 下 : 

59014 找 出 数据 来 源 ， 大 部 分 数据 来 源 于 Doc, XHR 和 JS 标签 。 

步骤 02 4 找到 数据 所 在 的 请 求 ， 分 析 其 请 求 链接 、 请 求 方式 和 请 求 参数 。 

WXR034 查找 并 确定 请 求 参 数 来 源 。 有 时 候 某 些 请 求 参数 是 通过 另外 的 请 求生 成 的 ,比如 请 
求 A 的 参数 id 是 通过 请 求 B 所 生成 的 ， 那 么 要 获取 请 求 A 的 数据 ， 就 要 先 获 取 请 求 B 的 数据 作 
为 A 的 请 求 参数 。 
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3.5 Æ * £i 


Chrome 开发 者 工具 的 主要 作用 是 进行 Web JT As v. o8] TIG HT AUN DA RN, 应 该 熟练 掌握 
Elements. Console 和 Network. AP Network 是 核心 部 分 ， 百 分 之 九 十 的 网 站 分 析 都 在 Network 
上 完成 ， 读 者 对 Network 上 的 各 个 功能 和 作用 要 理解 掌握 ， 并 懂得 如 何 使 用 Chrome 分 析 网 站 的 请 
求 信 和 号。 

一 般 分 析 网 站 最 主要 的 是 找到 数据 的 来 源 ， 确 定数 据 来 源 就 能 确定 数据 生成 的 具体 方法 。 总 
结 归纳 分 析 网 站 的 步 又 如 下 : 


CD 找 出 数据 来 源 ， 大 部 分 数据 来 源 于 Doc、XHR 和 JS 标签 。 

(2) 找到 数据 所 在 的 请 求 ， 分 析 其 请 求 链接 、 请 求 方式 和 请 求 参数 。 

(3) 查找 并 确定 请 求 参 数 来 源 。 有 时 候 某 些 请 求 参数 是 通过 另外 的 请 求生 成 的 ， 比 如 请 求人 
的 参数 id 是 通过 请 求 B 所 生成 的 ， 那 么 要 获取 请 求 A 的 数据 ， 就 要 先 获 取 请 求 B 的 数据 作为 A 
的 请 求 参数 。 


上 述 分 析 步 又 适用 于 大 部 分 网 站 ， 但 每 个 网 站 都 有 目 身 的 设计 特点 ， 不 能 一 概 而 论 。 此 方法 
更 多 的 是 起 到 指导 性 作用 ， 遇 到 有 具体 的 问题 还 是 要 有 具体 分 析 。 


Fiddler 抓 包 


4.1 Fiddler 介绍 


Fiddler 是 一 款 非常 流行 并 且 实 用 的 HTTP 抓 包 工具 ， 原 理 是 在 电脑 上 开启 一 个 HTTP 代理 服 
务 器 ， 然 后 转发 所 有 的 HTTP 请 求 和 响应 。 因 此 ， 比 一 般 的 浏览 器 自 带 的 抓 包 工具 (开发 者 工具 ) 
要 好 用 得 多 。 不 仅 如 此 ， 还 可 以 支持 请 求 重 放 一 些 高 级 功能 ， 也 可 以 支持 对 手机 应 用 进行 HTTP 
抓 包 。 

Fiddler 是 用 C# 开 发 的 工具 ,包含 一 个 简单 却 功能 强大 的 基于 JScript NET 事件 的 脚本 子 系统 ， 
灵活 性 非常 棒 ， 可 以 支持 众多 的 HTTP 调试 任务 ， 并 且 能 够 使 用 .net 框架 语言 进行 扩展 。 

此 外 ， 还 支持 断 点 调试 技术 ， 当 请 求 或 啊 应 属性 能 够 跟 目 标的 标准 相 匹 配 时 ，Fiddler 就 能 多 
暂停 HTTP 通信 ,并 且 人 允许 修改 请 求 和 啊 应 。 这 种 功能 对 于 安全 测试 非常 有 用 ， 当 然 也 可 以 用 来 做 
一 般 的 功能 测试 。 


4.2 Fiddler 安装 配置 


Fiddler 在 Windows 下 可 直接 使 用 exe 安装 包 安 装 ， 安 装 包 可 在 官方 网 站 下 载 
C https://www.telerik.com/download/fiddler) . 
完成 安装 后 ， 在 安装 目录 下 双击 打开 应 用 程序 Fiddler.exe， 可 看 到 Fidder HPA, WB] 4-1 
所 示 。 
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File Edit Rules Tools View Help 
$$ wWinConfig C) fr Replay X7 P Go «stream i Decode | Keep: All sessions ~ (B Any Process. JA Find [gl Save — Mg (0) S Browse - «i 
SEIN Host URL Content-Type Protocal | 
OO Tunn.. WWD 
Tunn.. www.g... 3 2p 
ha magejpno 2D 
4  bext/ntmi 
/.. magejpno 


ffkkler/..  image/png 


: dfe Accept: text/html ,aoniication xhtml xml application xml; q 23. 8 mags/vweon, mage ann, */^:320.8 
j »* OE P ; 5s Accept-Encuding; ozio, deflate 
ki = 25,5 Accept-Language: zh-CM,zh;q-0.9 
， texthtmi c... User-Agent: Mazilaf5.D (Windows NT 6.3: ined: xe) Appiewebkdt/537.36 (KHTML, like Gecko) Chrome 82. 0.3202. 94 Safzri/537. 36 
Cookies 
E Cookie 
dc gtm UA-111455-1=1 
dc gtm LA-111455-21-1 
.ga-(5A1,2. 385632752, 15132598211 


text/html c... 
. Bppication/, .. 


,  bextfjavamc... 


43333; 


XL 
T 


. text/javasr... ImageWiew  Hexview 


， text/javasc,.. 
la magejcif 
,  bexthiml; c... 
2 dbext/ntmi; c... 
4  bext/ntmi 
f... magejpno 


Response Headers [Haw] [Header Definitions 


Date: Fri, 15 Dec 2017 Q2: 10:00 GMT 

Vary: Accept-Enccding 

ffidder/..  imageJpng Entity 
Content4 ength: 5097 
Content-Type: textihtml 
ETag: "AdsdisSedb5Sc3cFl:0 
Last odifiad: Fri, 28 Aug 


33341343333 


1/784 htt»: //'dacs.telerk cam/fiddler /Canfigurz-Fiddeer /Tasks/EnstallFidder 


图 4-1 Fiddler 用 户 界 面 
Fiddler 用 户 界 面 主 要 包括 下 面 6 个 部 分 : 


d>) 图 中 标注 1 为 Main Menu 〈 主 荣 单 ) ， 作 用 于 整个 Fiddler 相关 配置 。 

(2) 图 中 标注 2 为 Toolbar (工具 栏 ) ， 主 要 对 Web Session 操作 处 理 。 

(3) 图 中 标注 3 为 Web Session (JJK) ， 显 示 已 抓 取 的 HTTP 请 求 信息 。 

(4) 图 中 标注 473 View 〈 选 项 视图 ) ， 显 示 每 条 HTTP 的 详细 信息 。 

(5) 图 中 标注 5 为 Quickexec 命 令 行 ) ， 通 过 特定 的 条 件 快 速 找 到 符合 条 件 的 HTTP 请 求 。 
(6) 图 中 标注 6 为 Status bar. (状态 栏 ) ， 显 示 当 前 状态 信息 。 


打开 Fiddler 之 后 ， 由 于 HTTPS 协议 的 特殊 性 ， 还 需要 配置 Fiddler。 了 解 Fiddler 抓 取 HTTPS 
协议 的 原理 才能 更 好 地 理解 如 何 对 Fiddler 进行 配置 ， 原 理 如 图 4-2 所 示 。 


Client Server 
1. 截获 HTTPS 请 求 


了 ee 一 


2. 服务 器 响应 
4. 加 窗 信 息 


= E 


6. 加 密 信 息 


8. 正常 加 密 通 信 


ETI3 一 一 


图 4-2 Fiddler 抓 取 HTTPS 的 原理 
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Fiddler 抓 取 HTTPS 协议 充当 的 角色 : 


(10 HRS R— cR) im: Fiddler 接收 到 服务 硕 发 送 的 密 文 ， 用 对 称 密 钥 解 开 ， 获 得 服务 耸 友 送 
的 明文 。 再 次 加 密 ， 发 送 给 客户 端 。 

(2) RP im HR OS idu: 客户 痛 用 对 称 密 钥 加 密 ， 被 Fiddler 截获 后 ， 解 密 获 得 明文 。 再 次 加 
uL. JARXASIRHROS ASA. HF Fidder 一 直 拥 有 通信 用 对 称 密 钥 enc key, KEEA HTTPS 通信 过 
程 中 信息 对 其 透明 。 


配置 Fiddler， 使 其 能 够 抓 取 HTTPS 请 求 信息 ， 方 法 如 下 : 


步骤 014 对 Fiddler 进行 设置 : 打开 Main Menu—>Tools—>Fiddler Options HTTPS, 
5:902 / AE HTTPS 里 的 选项 ， 然 后 单 击 Actions 一 Trust Root Certificate， 完 成 证 书 验 证 ， 
如 图 4-3 所 示 。 


| General HTTPS | Connections | Gateway | Appearance | Saripting | Extensions | Performance | Tools | 
Fiddler can decrypt HTTPS sessions by re-signing traffic using self-generated certificates. 
Capture HTTPS CONNECTS E Actions 


Decrypt HTTP5 traffic | Trust Root Certificate 


...from all processes v Certificates generated by CertEnroll Export Root Certificate to Desktop 


[_] Ignore server certificate errors (unsafe) Open Windows Certificate Manager 
Check for certificate revocation Learn More about HTTPS Decryption 
Remove Interception Certificates 


Reset All Certificates 


Protocols: «client»; ssl3;tls 1.0 


Skip decryptionforthefollowing hosts: 


Help Note: Changes may not take effect until Fiddler is restarted. ! € 
图 4-3 Fiddler 配置 HITPS 


75, XR ZCRENIBU EL. Fidder Wae IAA EAE R E d. PRIEZ FR. Fiddler 还 能 抓 取 手 机 
ERR a RRHH EEE AYUDA. 


4.3 Fiddler 抓 取 手 机 应 用 


Fiddler 可 通过 同一 无 线 网 络 实现 对 手机 应 用 的 抓 包 ， 手 机 抓 包 原 理 和 电脑 抓 包 原 理 相 同 ， 手 
机 抓 包 主 要 通过 远程 连接 实现 手机 和 Fiddler 通信 。 
实现 Fiddler 抓 取 手机 应 用 的 步骤 如 下 : 
步骤 01 d Bo € Fiddler 远程 连接 模式 。 打 开 Main Menu—> Tools — Fiddler Options 一 
Connections, 4J3t Allow remote computers to connect 复 选 枉 ， 如 图 4-4 所 示 。 
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X 


General | HTTPS | Connections | Gateway | Appearance | Scripting | Extensions | Performance | Tools | 


Fiddler can debug traffic from any application that accepts a HTTP Proxy. All WinINET traffic is routed 
through Fiddler when "File > Capture Traffic" is checked. 
Learn more... 


Fiddler listens on port: (8888 | Act as system proxy on startup 
Copy Browser Proxy Configuration URL Monitor all connections [ ] Use PAC Script 


[ ] Capture FTP requests DefaultLAN 


i | Reuse client connections 


[v] Reuse server connections Bypass Fiddler for URLs that start with: 
z Joopback»; 


Help Note: Changes may nottake effect until Fiddler is restarted. OK | 
图 4-4 Fiddler 配置 远程 连接 


步骤 02h 在 手机 端 进行 参数 配置 ( 以 安 卓 手机 为 例 )。 确 保 手机 和 电脑 在 同一 个 网 络 ， 查 询 
电脑 IP 地 址 ， 可 在 CMD 下 输入 ipconfig 查询 ( 电脑 他 为 10.168.1.240 )， 从 图 4-4 得 知 ，Fiddler 
端口 为 8888 ( 一 般 默认 为 8888， 也 可 自行 设置 )。 

3:03 4. 在 手机 浏览 器 中 输入 电脑 他 地 址 和 Fiddler 端口 ( 输入 “10.168.1.240: 8888" )， 单 
击 人 确认 后 束 转 到 证 书 下 载 页 面 。 单 击 下 载 FiddlerRoot certificate， 如 图 4-5 所 示 。 


3 Fiddler Echo Service 


Fiddler Echo Service 


GET / HTTP/1.1 

Host: 10.168.1.240:8888 

Connection: keep-alive 

Upgrade-Insecure-Requests: 1 

User-Agent: Mozilla/5.0 (Linux; U; Android 5.0.2; zh-cn; Redmi Note 2 Build/LRX22G) Apple 
x-miorigin: b 

Accept: text/html,application/xhtml*xml,application/xml;q-0.9,image/webp,*/*;q-0.8 
Accept-Encoding: gzip, deflate 

Accept-Language: zh-CN,en-U5;q*0.8 


This page returned a HTTP/200 response 


» To configure Fiddler as a reverse proxy instead of seeing this page, see Reverse Proxy Setup 
* You can download the FiddlerRoot certificate 


图 4-5 £k FiddlerRoot certificate 
步骤 04 4 证 书 文件 以 cer 为 后 缀 名 ， 由 于 不 同 的 手机 型 号 安装 证 书 的 方式 不 一 致 ， 因 此 这 里 
不 做 详细 讲述 。 完 成 证 书 安 浴 后 ， 进 入 手机 当前 连接 Wi-Fi FA, RARE P. 主机 名 为 电脑 IP 
HHtik, mAH Fiddler 配置 的 靖 口 ， 如 图 4-6 所 示 。 
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WFA NTA Fan 


fe80::2282:c0ff:fe76:e3e1 
10.168.1.225 


299.299.299.0 


10.168.1.1 


10.168.1.240 
8888 


图 4-6 配置 手机 代理 


又 05 4 完成 上 述 配置 ， 可 操作 手机 应 用 ， 在 操作 过 程 中 产生 的 HTTP 请 求 都 会 被 电脑 上 的 


Fiddler 抓 取 ， 如 图 4-7 所 示 。 
党 条 后 119. ,ddn=wup,imtt,q,,, text/html pamm = 
ex 59.3 f: application /multipart Accept-Encoding: gzip 
B8 — 1&1. /tk=eid918ebe8... application/multipart: User-Agent: Mozilla/5.0 (Linux; U; Android 5.0.2; zh-cn; Redmi Note 2 Build/LRX22G) AppleWebkit/533. 1 (KHTML, like ( 
@i0 Tum dientsi.google.co... text/html; charset=L Entity 
(ii Tum... dientsi.google.co... text/html; charset-L Content-Length: 272 
Qu Tunn... dientsi.google.co... text/html; charsetzL Content-Type: application/x-www-form-urlencoded 
一 二 — 183... jmmhead/ver 1/V... image/jpeg Miscellaneous 
®15 data... jmistats/v2 application/json;char Q-GUID: BD65A99980A3CE2EA 599ACSFEC9C741360AAD 1CEE2FAO0 1A95BSF6 10B8837430D 7 
(15 Tum... dientsi.google.co... text/html; charset-L QQ-S-ZIP: gzip 
o 17  Tunn... cdientsl.googdle.co... text/html: charset=L OUA2: QVz38PL-ADR PR -WXSPP =com. tencent.mm&PPVN =6. 5, 238TBSVC 243602&CO -BK&COVC 20436328PB =G] 
o 18  Tumn. dientsi.google.co... text/html; charset-L Transport 
(8| 19  Tunn.. Mhm.baidu.com:443 Connection: Close 
国 20 — hm.b.. jhm.gifrcc=08ck=,,. image/gif Host: 53, 37.96. 162:8080 E 
221 adas... jrest/sur?akz233...  application/json 
Q2  101.. | text/html; charset-L Transformer | Headers || TextView | SyntaxView | ImageView | HexView | WebView 
123 10.1.. /favicon.ico text/html; charset-L Cookes | Raw | BON XML 
Q2 Tunn... cdientsi.google.co... text/html; charset-L F z 
(25  Tunn.. cdientsi.google.co... text/html; charsetzL Gesn (3 cile de s 
(25  Tunn.. dientsi.google.co... text/html; charset-L "TRO 
Qs Tunn... dientsi.google.co... text/html; charset-L —- W 
Q5 Tunn... cdientsi.google.co... text/html; charset-L 4 l ZezM aad aqaDe  BaKeaemelHece t4Oh — Yee S € B YS 
(»30  Tunn.. dientsi.goodle.co... text/html: charset=L * | [s ASDaeZNes/6 aSaevy [DHF afrQiaete aaevesteeD. Xe. 一 人 下 + HD VH Vivie s see] Og - 
— o0 | or [Find... (press Ctri4+Enter to highightal) | [Viewin Notepad | 


图 4-7 Fiddler 抓 取 手机 HTTP 请 求 信 息 


从 图 4-7 中 看 到 ，User-Agent 请 求 头 是 由 安 早 系统 有 出 的 。 同 样 地 ， 知 抓 取 1OS 系统 ， 也 是 按 
照 上 述 方式 配置 即 可 。 

如 果 停 止 电脑 对 手机 的 网 络 监控 ， 可 以 回 到 步骤 4， 将 Wi-Fi 的 代理 设置 去 掉 即 可 。 知 要 删除 
Fiddler 证 书 , 可 在 设置 一 系统 安全 一 信任 的 凭据 下 找到 “DO NOT TRUST” WER, 将 其 删除 即 可 。 
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4.4 Toolbar 工具 栏 


现在 已 可 以 使 用 Fiddler 抓 取 HTTP 请 求 信息 了 , 但 如 何 使 用 Fiddler 对 请 求 进行 分 析 ， 从 而 获 
取 我 们 所 需 的 信息 呢 ? 要 熟练 掌握 Fiddler 的 使 用 ， 首 先 要 掌握 其 每 个 功能 的 作用 。 

从 4.2 WANE, Fiddler 用 户 界 面 由 6 部 分 组 成 ， 最 为 彰 用 的 是 Toolbar 工具 栏 、Web Session 
列表 、View 选项 视图 和 Quickexec 命令 行 。 

Toolbar 工具 栏 主要 提供 常见 的 命令 和 设置 的 快捷 方式 , 其 各 个 按钮 的 功能 说 明 如 表 4-1 所 示 。 


表 4-1 Toolbar 工具 栏 功能 说 明 


6B Any Process 
CB pick target... 


MSDN Search... 
© 


单 击 该 按钮 可 以 为 所 有 选 定 的 Session 添加 comment 
回 服务 圳 重新 上 友 送 该 请 求 
从 Web Session 中 删除 已 经 捕捉 的 Session 


恢复 执行 在 request 或 response 断 点 处 暂 俘 的 所 有 Session 
打开 Stream 模式 ， 取 消 所 有 没有 设置 中 断 的 缓存 


打开 Decode 模式 ， 对 请 求 和 啊 应 的 HTTP 内 容 和 传输 编码 进行 解码 
选择 Web Session 列表 中 保存 Session 的 数量 

单 击 上 面 的 Any Process 图 标 并 将 其 移动 到 指定 浏览 器 页 面 后 ， 该 log 会 
单独 记录 这 个 页 面 的 通信 情况 

打开 Find Session 窗口 ， 可 快速 查找 某 条 Session 

把 所 有 的 Session 保存 到 saz 文件 中 

把 当前 桌面 的 屏幕 截图 以 JPEG 格式 添加 到 Web Session 列表 


闸 单 的 计时 功能 


如 果 选 中 某 个 Session, MEE IE PHA URL; 如 果 没 有 选中 Session, 
就 在 正中 打开 about:blank 


清空 WinINET 的 缓存 文件 


打开 文本 编码 /解码 小 工具 
新 建 一 个 包含 所 有 View 的 窗口 
在 MSDN 的 Web Session 区 域 进行 搜索 


打开 Fiddler 的 帮助 窗口 


MELE, WREKE CER, nih View 一 Show Toolbar 
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4.5 Web Session 列表 


Web Session 主要 以 表格 形式 展现 ， 需 掌握 表 字 上 段 代 表 的 食 义 、 表 格 信 息 的 含义 以 及 快捷 键 的 
使 用 。 
RTR CRL) 信息 的 售 义 如 表 4-2 所 示 。 


表 4-2 Web Session 表 头 信息 及 说 明 


对 已 捕捉 的 Session 生成 对 应 的 ID 号 

接受 请 求 的 主机 名 和 端口 

Session 的 内 容 类 型 

响应 的 状态 码 

网 络 协议 类 型 (HTTP、HTTPS、FTP) 

ij 3. rh Expires 和 Cache-Control 的 值 

数据 流 在 本 地 系统 的 进程 

通过 工具 栏 Comment 按钮 设置 注释 信息 
FiddlerScript 所 设置 的 Ui-CustomColumn 标志 位 的 值 


观察 列表 每 条 请 求 信息 可 发 现 ， 每 条 数据 都 有 不 同 的 颜色 ， 其 颜色 含义 如 表 4-3 pk. 


表 4-3 Web Session 请 求 信 息 的 颜色 含义 


头 


^ 


表示 HTTP 状态 错误 


除了 颜色 之 外 ， 每 条 请 求 信 息 都 带 有 一 个 图 标 ， 图 标 售 义 如 表 4-4 所 示 。 


ak 4-4 Web Session 请 求 信息 的 图 标 含 义 
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( 续 表 ) 


请 求 使 用 的 是 Head 或 Options 方法 ， 客户 端 无 须 下 载 内容 即 可 获取 目标 URL 和 服 
务 器 信息 


啊 应 内 容 是 音频 文件 


服务 器 返回 错误 的 标识 


通过 对 表 字 段 、 请 求 信 息 的 颜色 和 请 求 信 息 的 图 标的 了 解 ， 可 知道 Fiddler 对 每 一 种 请 求 类 型 
都 进行 了 详细 的 划分 。 除 此 之 外 ， 用户 还 可 以 对 每 个 请 求 进 行 操 作 , 移动 鼠标 对 某 一 条 请 求 右 击 会 
出 现 操 作 菜 单 ， 如 图 4-8 所 示 。 


Decode Selected Sessions 


AutoScroll Session List 
Copy 
Save 
Remove 


Filter Now 


T T "T "T 


Comment... M 
Mark " 
Replay P 


Select b 


COMETPeek 

Abort Session 

Clone Response 

Unlock For Eding 

Inspect in New Window... Shift+Enter 
Properties... Alt+Enter 


图 4-8 Web Session 操作 菜单 
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用 户 可 通过 操作 且 蛙 对 请 求 信息 进行 更 改 , 也 可 以 直接 使 用 快捷 键 实现 , 快捷 键 如 表 4-5 所 示 。 
(图 中 颜色 较 深 的 是 党 用 部 分 。) 


表 4-5 Web Session 快捷 键 


在 视图 中 激活 并 显示 当前 的 Session 
选中 所 有 的 Session 
取 冰 选择 所 有 的 Session 
反 回 选中 ， 取 消 选 中 的 Session， 选 中 之 前 未 选中 的 Session 
删除 所 有 未 选中 的 Session 
CR | 重新 执行 当前 请 求 
多 次 执行 当前 的 请 求 〈 在 提示 框 输入 执行 次 数 ) 
无 条 件 重新 执行 当前 的 请 求 
无 条 件 多 次 执行 当前 的 请 求 〈 在 提示 框 输入 执行 次 数 ) 
PP | 选中 触发 该 请 求 的 父 请 求 
co | 选中 该 响应 触发 的 所 有 子 请 求 
D | 选中 与 当前 Session 重复 的 请 求 
查看 当前 Session 的 属性 
在 新 的 Fiddler 窗口 中 启动 该 Session 的 Inspectors 
选中 的 Session 分 别 用 粗 体 的 红色 / 蓝 色 /金色 /绿色 /橙色 /紫色 表示 


E 
为 选中 的 Session 添加 描述 


4.6 View 选项 视图 


View 主要 以 选项 视图 方式 实现 ， 将 一 个 请 求 信 息 按 功能 划分 在 不 同 选项 卡 中 ， 如 表 4-6 所 示 
是 常用 的 选项 视图 。 
表 4-6 View 常用 选项 视图 
常用 选项 视图 
统计 选项 卡 ， 统 计 资 源 的 消耗 时 间 和 数据 长 度 等 信息 
检查 选项 卡 ， 共 分 为 两 部 分 : 请求 信息 和 响应 信息 


自动 响应 选项 卡 ， 将 请 求 重 定向 到 本 地 文件 ， 实 现 人 工 干 预 HTTP 请 求 
Composer 构建 选项 卡 ， 用 于 创建 HTTP Request， 并 发 送 服务 器 实现 模拟 请 求 


使 用 Fiddler 做 息 虫 开发 必须 掌握 Inspectors. AutoResponder 和 Composer. Inspectors 主要 是 
对 请 求 和 啊 应 信息 进行 分 析 和 获取 请 求 参数 ， 如 图 4-9 所 示 。 
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Headers | TextView | SyntaxView | WebForms | HexView | Auth | Cookes | Raw | JSON | XML | 


Request Headers | 
GET | /SalFazut AASAnxGkoSTTAnFÉhhr, 'su?wd-Fy thonkjs son-lép-3&s id=1427_ 21083 -2 S221. 25118&r sq72&c; sor- l&psd-Py tho&cb- query 2 i 


Client MEM 
Accept: */* 
Accept-Encoding: gzip, deflate, br 
Accept4 anguage: zh-CN,zh;q-0.9 
User-Agent: Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537. 36 (KHTML, like Gecko) Chrome/62.0.3202.94 5afari/537.36 
Cookies 
= Cookie 
Miscellaneous 
Referer: https: //www.baidu.com/ 
Transport 
Connection: keep-alive 
Host: spO.baidu.com 


Transformer ||Headers | TextView | SyntaxView | ImageView | HexView | WebView | Auth Caching | Cookies | Raw 


HTTP/1.1 200 OK 

Cache 
Cache-Control: private 
Date: Fri, 15 Dec 2017 08:49:58 GMT 
Expires: Fri, 15 Dec 2017 03:48:58 GMT 


Content4 ength: 1019 

Content-Type: text/javascript; charset-gbk 
Hiscellaneous 

Server: suggestion.baidu.zbb.df 


图 4-9 Inspectors 选项 视图 


从 图 4-9 AI3É, Inspectors 上 下 划分 为 两 个 功能 区 。 上 和 面 的 功能 区 显示 用 户 发 送 的 请 求 信息 ， 
下 面 的 功能 区 显示 服务 右 啊 应 的 内 容 ， 每 个 功能 区 里 义 划 分 了 多 个 选项 视图 。 其 中 ，Headers 选项 
视图 显示 请 求 头 和 啊 应 头 ，WebForm 选项 视图 显示 发 送 请 求 的 请 求 参 数 ，xxxView 选项 卡 显示 各 
种 类 型 的 数据 内 容 。 

AutoResponder 和 Composer 就 不 多 做 讲解 了， 主要 是 AutoResponder HHEH Em] F Web JF 
发 调试 ， 在 爬虫 开发 中 实用 性 不 强 ; Composer 里 然 能 够 实现 对 服务 占 的 请 求 ， 但 用 Fiddler 编写 代 
码 就 显得 本 末 倒 置 ， 还 不 如 直接 使 用 Python 实现 。 


4.7 Quickexec 命令 行 


Quickexec 命令 行 可 通过 UBGEIHRTEUCHLUCAEN ELSETETHE RB IEREUSL, 如 图 4-10 所 示 。 


eU WF uae iP Pg PS LEMLÁEDI LEE b — hans Eh" b. 


[27476 iss K jè i aif?cc «Oc. 4 image/gif 2 
e 477 Tunn... esedick.baidu.com... 2 
$9478 edick... J/fp.htm?br-2&f... text/html 2 
[27]479 nsdic.. jv.gif?pid2307&... image/gif 2 
4L|480 apis... hv.gifrl=http%3... image/gif 2 

2 

c 


(481 hm.b... jhm.gif?cc-0&ck... image/gif 
o 482  Tunn... cdientsi.google.c... text/html; charset=UTF-8 
È 423 Tunn... dientsi.aoodle.c... 


iiie Capturing = All Processes 44/447 Found # instances of 'gif 


K] 4-10 Quickexec 快速 查找 
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从 图 4-10 中 看 到 ， 当 输入 “?gif” 时 ，Web Session 列表 会 将 符合 条 件 的 请 求 信 息 以 高 之 显示 ， 


在 下 方 状态 栏 可 以 看 到 符合 条 件 的 请 求 有 44 条 。 


除了 使 用 Quickexec 实现 快速 查找 之 外 ， 还 可 以 使 用 “Ctrlt+F” 查 找 功 能 ， 如 图 4-11 BT. 
通过 输入 关键 字 ， 然 后 单 击 查 找 按钮 ， 就 能 找到 相对 应 的 Session 信息 ， 而 且 还 可 以 自行 设 定 
目标 高 亮 颜色 。 除 此 之 外 ， 使 用 者 还 能 根据 特定 的 要 求 设 置 不 同 的 查找 条 件 。 


z 
[E] 

t: 
&»4 
= 

€&»68 
t- 
€»8 
alo 


LA TREE 
LA] 


Options 
Search: Requests and responses 
Examine: Headers and bodies 
[ ] Match case [ ] Regular Expression 
[ ] Search binaries 


Decode compressed content 


[ ] Select matches Unmark old results 


Ctrl+F 查找 功能 


本 章 小 结 


Fiddler 是 一 款 非 常 流行 并 且 实 用 的 HTTP 抓 包 工具 ， 它 的 原理 是 在 电脑 中 开启 一 个 HITP fX 
理 服务 器 ,然后 转发 所 有 的 HTTP 请 求 和 响应 。 因 此 ， 比 一 般 的 浏览 器 自 带 的 抓 包工 具 (开发 者 工 
RO 要 好 用 得 多 。 不 仅 如 此 ，Fiddler 还 可 以 支持 请 求 重 放 等 一 些 高 级 功能 ， 也 可 以 支持 对 手机 应 


用 进行 HTTP 抓 包 。 


Fiddler 提供 了 Windows 环境 下 的 .exe 安装 包 ， 使 其 安装 极其 简单 方便 。 安 装 完 成 后 ， 需 配置 
HTTPS 抓 取 功能 和 手机 抓 包 功 能 ， 完 成 配置 便 可 对 HTTPS 网 站 和 手机 进行 抓 包 。 

除了 功能 强大 之 外 ， 在 使 用 上 也 较为 徐 单 ， 使 用 者 只 要 打开 Fiddler, AAEN gS FHD 
中 进行 操作 ，Fiddler 就 会 自动 抓 取 请 求 信息 。 就 Fiddler 本 身 的 功能 而 言 ， 使 用 者 只 需 熟 知 每 个 功 


能 按钮 的 作用 使 知 这 如 何 使 用 。 


对 于 有 拒 虫 开发 人 员 来 说 ， 需 要 掌握 Web Session 列表 和 View 常用 选项 视图 的 基本 功能 ， 能 名 
分 析 并 得 知 每 个 请 求 的 类 型 、 状 态 码 、 请 求 方式 、 请 求 头 、 请 求 链 接 、 请 求 参 数 以 及 响应 内 容 等 基 


本 信息 。 


JE FR FE Urllib 


5.1 Urlib 简介 


Urllib 是 Python 目 市 的 标准 库 ， 无 须 安装 ,直接 引用 即 可 。Urllib 38/555 FH -T-JI& rRJT API Ow 
用 程序 编程 接口 ) 数据 获取 和 测试 。 在 Python 2 和 Python 3 中 ，Urllib 在 不 同 版 本 中 的 语法 有 明显 
的 改变 。 

Python 2 分 为 Urllib 和 Urllib2, Urllib2 可 以 接收 一 个 Request 对 象 ， 并 以 此 来 设置 一 个 URL 
的 Headers， 但 是 Urllib 只 接收 一 个 URL， 意 味 厦 不 能 伪装 用 户 代 理 字符 串 等 。Urllib 模块 可 以 提 
[tfr Urlencode 的 方法 ， 该 方法 用 于 GET 查询 字符 串 的 生成 ，Urllib2 不 具有 这 样 的 功能 。 这 也 
是 Urllib 与 Urllib2 经 常 在 一 起 使 用 的 原因 。 

在 Python 3 中 ，Urllib 模块 是 一 堆 可 以 处 理 URL 的 组 件 集合 ， 就 是 将 Urllib 和 Urllib2 合并 
在 一 起 使 用 ， 并 且 命 名 为 Urllib。 

由 于 Urllib 在 不 同 的 Python 版 本 上 有 明显 的 区 别 ， 在 实际 开发 中 也 遇 到 一 些 尴 族 的 情况 ， 其 
中 最 为 主要 的 是 版 本 之 间 的 互 不 兼容 所 带 来 的 问题 。 

在 Python 3 中 ，Urllib 是 一 个 收集 几 个 模块 来 使 用 URL 的 软件 包 ， 大 致 具备 以 下 功能 。 
urllib.request: 用 于 打开 和 读 取 URL, 
urllib.error: 包含 提出 的 例外 urllib.request。 
urllib.parse: 用 于 解析 URL. 
urllib.robotparser: 用 于 解析 robots.txt 文件 。 
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52 发 送 请 求 


urllib.request.urlopen 的 语法 如 下 : 
urllib.request.urlopen(url, data-None, [timeout, ]*, cafile-None, capath-N 
one, cadefault-False, context-None) 
功能 说 明 : Urllib 是 用 于 访问 URL 请 求 链接 ) 的 唯一 方法 。 
【参数 解释 】 

e ul: 需要 访问 的 网 站 的 URL 地 址 。url 格式 必须 完整 ， 如 https://movie.douban.comy/ 为 元 整 
4jurl. Zr url 为 movie.douban.com/， 则 程 厅 运行 时 会 提示 无 法 识别 url 的 错误 。 

e data: BEA None, Urllib 判断 参数 data 是 否 为 None 从 而 区 分 请 求 方 式 。 若 参数 data 
为 None， 则 代表 请 求 方式 为 GET; 反之 请 求 方式 为 POST， 发 送 POST 请 求 。 参 数 data 
以 字典 形式 存储 数据 ， 并 将 参数 data 由 字典 类 型 转换 成 字 节 类 型 才能 完成 POST 请求. 

e timeout: 超时 设置 ， 指 定 阻塞 操作 (请 求 时 间 ) 的 超时 (如 果 未 指定 ， 就 使 用 全 局 默认 超 
时 设置 )。 

€ cafile. capath 和 cadefault: 使 用 参数 指定 一 组 HTTPS 请 求 的 可 信 CA 证 书 。cafile 应 指向 包含 
一 组 CA 证 书 的 单个 文件 ; capath 应 指向 证 书 文件 的 目录 ; cadefault 通常 使 用 默认 值 即 可 。 

€ context: 描述 各 种 SSL 选项 的 实例 ， 


在 实际 使 用 中 ， 常 用 的 参数 有 url. data 和 timeout。 知 在 爬虫 中 通 到 证 书 验 证 ， 则 可 将 证 书 验 
证 直接 关闭 ， 也 可 以 设置 参数 指 同 证 书 的 信息 和 位 置 。 相 比 而 言 ， 设 置 证 书 比 较 耗 时 ,而且 通用 性 
ANTE o 

当 对 网 站 发 送 请 求 时 ， 网 站 会 返回 相应 的 啊 应 内 容 。urlopen 对 象 提供 获取 网 站 啊 应 内 容 的 方 
法 函数 ， 分 别 介 绍 如 下 。 


read(). readline(). readlines(). fileno()fe close): 对 HITPResponse 类 型 数据 操作 。 
info): 返回 HITPMessage 对 象 ， 表 示 远 程 服务 器 返回 的 头 信息 。 

getcode0: 返回 HTTP RSA. 

geturl); 返回 请 求 的 URL. 


下 面 的 例子 用 于 实现 Urllib 模块 对 网 站 发 送 请 求 并 将 啊 应 内 容 写 入 文本 文档 ， 代 码 如 下 : 
+ SAurllib 


import urllib.request 

+ 打开 URL 

response = urllib.request.urlopen('https://movie.douban.com/', None, 2) 
E 读 取 返回 的 内 容 

html = response. read(} aecoae (at | 

txt 

t = open('html.txt', 'w', encodinq-'uttf8"') 

f.write (html) 

t.close() 
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首先 导入 urllib.request 模块 ， 然 后 通过 urlopen 访问 一 个 URL， 请 求 方式 是 GET, MASX 
data ZAN None; 最 后 的 参数 用 于 设置 超时 时 间 ， 设 置 为 2 秒 ， 如 果 超 过 2 秒 ， 网 站 还 没 返 回 啊 
应 数据 ， 就 会 提示 请 求 失败 的 错误 信息 。 

当 得 到 服务 帮 的 啊 应 后 ， 通 过 responseread0 获 取 其 啊 应 内 容 。read0 方 法 返回 的 是 一 个 bytes 
类 型 的 数据 ， 需 要 通过 decode0) 来 转换 成 str 类 型 。 最 后 将 数据 写 入 文本 文档 中 ，encoding H Fiz 
置 文 本 文档 的 编码 格式 ， 数 据 编码 必须 与 文本 文档 编 公 一致， 否则 会 出 现 乱 码 。 运 行 结果 如 图 5-1 
所 示 。 


| 司 html.txt - 记事 本 一 口 x 
文件 (F) 编辑 (E) 格式 (DO) 查看 (V) 帮助 (H) 
<!DOCTYPE html? ^ 


<html lang-"zh-cmn-Hans" class=""» 

chead? 
<meta http-equiv-" Content-Type” content=” text/html; charset=utf-8”> 
<meta name-"'renderer" content=” Webkit > 
<meta name-"referrer" content-"always"» 


A EDETes 


{meta name-"baidu-site-verification' content-"cZdRAxxRTRxmMAzE" /> 
<meta http-equiv-"Pragma' content= no-cache' > 
<meta http-equiv-" Expires" content- Sun, 6 Mar 2005 01:00:00 GMT? 


图 5-1 获取 豆瓣 页 面 内 容 


53 复杂 的 请 求 


urllib.request.Request 的 语法 如 下 : 


urllib.request.Request(url, data-None, headers-(), method-None) 


功能 说 明 : 声明 一 个 request 对 象 ， 该 对 象 可 目 定 义 header (请求 涉 ) 等 请 求 信 息 。 
【参数 解释 】 

url: 完整 的 url 格式， 与 urllib.request.urlopen 的 参数 url 一 致 。 

data: 请 求 参 数 ， 与 urllib.request.urlopen 的 参数 data 一 致 。 

headers: E request 请 求 头 信 息 。 

method: 设 定 请 求 方 式 ， 主 要 是 POST 和 GET 方式 。 


一 个 完整 的 HTTP 请 求 必须 要 有 请 求 头 信息 ， 而 urllibrequest.Request 的 作用 是 设置 HTTP 的 
请 求 头 信息 。 使 用 urllib.request.Request 为 5.2 贡 的 例子 设置 请 求 头 ， 人 代码 如 下 : 
# SAXurllib 


import urllib.redquest 
url = *https://movie.douban.com/ ' 
# 自 定义 请 求 头 
headers = 1 
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) 
AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/45.0.2454.85 Ssadtari/5317. 36 
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I15Browser/6.0.3', 
'Referer': 'https://movie.douban.com/', 
"Connection': "'keep-alive') 
# RE request 的 请 求 头 
req — urllib.request.Request(url, headers-headers) 
à 使 用 urlopen 打开 req 
html = urllib.request.urlopen(req).read().decode('utf-8') 
ESAIT 
= open ('html.txt', 'w', encoding="'utf8") 
.write (html) 
.close(i) 


Hh mh hh 


54 ”代理 IP 


代理 IP 的 原理 : 以 本 机 先 访 问 代 理 人 ， 再 通过 代理 IP JEU; [n] KN, AAEN RA) 


接收 到 的 访问 IP. 就 是 代理 IP 地 址 。 


Urllib 提供 了 urllib.request.ProxyHandler0 方 法 可 动态 设置 代理 IP 池 ， 代理 他 主要 以 字典 格式 


写 入 方法 。 完 成 代理 IP 设置 后 ， 将 设置 好 的 代理 他 5 X urllib.request.build opener0 方 法 ， 生 成 对 
象 opener， 然 后 通过 opener 的 open0 方 法 同 网 站 (服务 器 〉 发送 请 求 。 


沿用 前 面 章 节 的 例子 ， 将 例子 改 为 使 用 代理 IP 访问 网 站 ， 代 码 如 下 : 


import urllib.request 
url = "'https://movie.douban.comy/ ' 
# 设置 代理 IP 
proxy handler - urllib.request.ProxyHandler(í 
"hEtb'- "218-596-1374. 137-8080", 
"hEtps"*: 'TB3.-39D-I137-29:919T7* T) 
# 必须 使 用 build opener () 函数 来 创建 带 有 代理 TP 功能 的 opener 对 象 
opener = urllib.request.build opener(proxy handler) 
response = opener.open (url) 
html = pcsponse.read()-decoder(' utt-8-) 
f = open('html.txt', 'w', encoding-'ntf&"') 
f.write(html) 
t.close(t) 


注意 ， 由 于 使 用 代理 一， 因此 连接 IP 的 时 候 有 可 能 出 现 超时 而 导致 报错 ， 员 到 这 种 情况 只 要 


更 换 其 他 代理 IP 地址 或 者 再 次 访问 即 可 。 以 下 是 常见 的 报错 信息 。 


ConnectionResetError: [WinError 10054] 远 程 主 机 强迫 关闭 了 一 个 现 有 的 连接 。 
urllib.error.URLError: urlopen error Remote end closed connection without response ( 结束 没 
有 响应 的 远程 连接 ). 

è  urlliberror URLError: urlopen error [WinError 10054] 远程 主机 强迫 关闭 了 一 个 现 有 的 连接 。 
TimeoutError: [WinError 10060] 由 于 连接 方 在 一 段 时 间 后 没有 正确 答复 或 连接 的 主机 没有 
反应 ， 因 此 连接 尝试 失 败 。 

e  urllib.error URLError: urlopen error [WinError 10061] 由 于 目标 计算 机 拒绝 访问 , 因此 无 法 连接 。 
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5.5 使 用 Cookies 


Cookies 主要 用 于 获取 用 户 登 录 信 息 ， 比 如 ， 通 过 提交 数据 实现 用 户 登 录 之 后 ， 会 生成 带 有 登 
录 状 态 的 Cookies， 这 时 可 以 将 Cookies 保存 在 本 地 文件 中 ， 下 座 程 序 运 行 的 时 候 ， 可 以 直接 谍 取 
Cookies 文件 来 实现 用 户 登 录 。 特 别 对 于 一 些 复杂 的 登录 ， 如 验证 码 、 手 机 短信 验证 登录 这 类 网 站 ， 
使 用 Cookies 能 简单 解决 重复 登录 的 问题 。 

Urllib 提供 HTTPCookieProcessor()* Cookies 操作 ， 但 Cookies 的 谈 写 是 由 MozillaCookieJar() 

import urllib.request 

from http import cookiejar 

filename —'*cookic Exi." 

# MozillaCookieJar 保存 cookie 

cookie = cookiejar.MozillaCookieJar(filename) 

# HTTPCookieProcessor 创建 cookie 处 理 器 


handler = urllib.request.HTTPCookieProcessor (cookie) 


# 创建 自 定义 opener 


opener = urllib.request.build opener (handler) 
# open 方法 打开 网 页 
response = opener.open('https://movie.douban.com/') 


# 保存 cookie 文件 


cookie.save() 


代码 中 的 cookiejar 是 目 动 处 理 HTTP Cookie HJ, MozillaCookieJar() H T4 Cookies 内 容 写 
入 文件 。 程 序 运 行 时 先 创 建 MozilaCookieJar X $& ,— £5 Je 348 & Eb Hz fe X eS 2 
HTTPCookieProcessor(), ^EJX opener XJR: 最 后 使 用 opener 对 象 访 问 URL， 访 问 过 程 所 生成 的 
Cookies 就 直接 写 入 己 创 建 的 文本 文档 中 。 

接着 再 看 如 何 读 取 Cookies, U F: 


import urllib.redquest 

from http import cookiejar 

filename = 'cookie.txt' 

# lÆ MozillaCookieJar 对 象 

cookie = cookiejar.MozillaCookieJar () 

# 读 取 cookie 内 容 到 变量 

cookie.load(filename) 

# HTTPCookieProcessor 创建 cookie 处 理 器 

handler = urllib.request.HTTPCookieProcessor (cookie) 
# 创建 opener 

opener - urllib.request.build opener (handler) 

# opener 打开 网 页 

response = opener.open('https://movie.douban.com/') 
# 输出 结果 


print (cookie) 


读 取 和 写 入 的 方法 很 相似 ， 主 要 区 别 在 于 : 两 者 对 MozillaCookieJar0 对 象 的 操作 不 同 ， 导 致 
实现 功能 也 不 同 。 运 行 结果 如 图 5-2 所 示 。 
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Fi cookie.txt - 记事 本 
MHF SeSB(E) 格式 (DO) SANV) 帮助 (H) 


E Netscape HTTP Cookie File 
B http://curl. haxx. se/rfe/cookie spec.html 
# This is a generated file! Do not edit. 


. douban. com TRLE / FALSE — 1536243725 i cdOc4PE xjE 


. douban. com TRUE / FALSE — 1536243725 L] 118286 


«MozillaCookieJar[4Cookie bid-cdÜc4PE xjE for .douban.com/», Cookie 11-"118288" for .douban. com/»]» 


图 5-2 ”验证 Cookies 


注意 ， 为 了 方 使 测试 ， 上 述 代码 中 使 用 的 cookie.save() 和 cookie.load(filename) 将 Cookies 内 容 
显示 在 文本 文档 中 。 在 实际 开 及 中 ， 为 了 提高 安全 性 ， 可 以 在 剑 存 和 读 取 Cookies 时 设置 参数 ， 使 
Cookies 信息 隐藏 在 文件 中 。 方 法 如 下 : 


cookie.save(ignore discard-True,ignore expires-True) 
cookre.oad(frlename, ?gnore discard True, ignore expires True) 


56 W bu; WE 


"A38 $1 ERRANT, EA a De nE EM E E a ATEA A A A 
在 没有 安装 12306 根 证 书 的 情况 下 访问 12306 网 站 ， 则 页 面 如 图 5-3 所 示 。 


您 的 连接 不 是 私密 连接 


攻击 者 可 能 会 试图 从 kyfw.12306.cn 午 取 您 的 信息 ( 例如 : 密码 、 通 讯 内 容 或 信用 卡 信 
息 ) 。 了 解 详情 


NET:ERR. CERT AUTHORITY INVALID 


O 自动 向 Google 发 送 一 些 么 统 信息 和 网 页 内 容 ， 以 帮助 检测 危险 应 用 和 网 站 。 隐 私 权 


图 $-3 ”查询 12306 的 车 票 


这 里 补充 一 个 知识 点 ，CA 证 书 也 叫 SSL 证 书 ， 古 数字 证 书 的 一 种 ， 类 似 于 驾驶 证 、 护 照 和 管 
业 执 照 的 电子 副本 。 因 为 配置 在 服务 夯 上 ， 也 称 为 SSL 服务 器 证 书 。 

SSL 证 书 就 是 遵守 SSL 协议 ， 由 受信 任 的 数字 证 书 机 构 颁 发 CA， 在 验证 服务 器 身份 后 颁发 ， 
具有 服务 器 身份 验证 和 数据 传输 加 密 功 能 。 

SSL EPER P 3m] 928481 Web 服务 器 之 间 建 立 一 条 SSL 安全 通道 (Secure Socket Layer. 
SSL) ， 安 全 协议 是 由 Netscape Communication 公司 设计 开 友 的 。 访 安全 协议 主要 用 来 提供 对 用 户 
和 服务 亏 的 认证 ， 对 传送 的 数据 进行 加 密 和 隐藏 ， 确 保 数 据 在 传送 中 不 被 改变 ， 即 数据 的 完整 性 ， 
现 已 成 为 该 领域 中 全 球 化 的 标准 。 

一 些 特殊 的 网 站 会 使 用 自己 的 证 书 ， 如 12306 首页 提示 下 载 安装 根 证 书 ， 这 是 为 了 确保 网 站 
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的 数据 在 传输 过 程 中 的 安全 性 。 在 讲述 urllib.request.urlopen 的 时 候 ，urlopen 市 有 cafile、capath 和 
cadefault 参数 ， 可 以 用 于 设置 用 户 的 CA 证 书 。 

遇 到 这 类 验证 证 书 的 网 站 , 最 简单 而 骏 力 的 方法 是 直接 关闭 证 书 验 证 , 可 以 在 代码 中 引入 SSL 
模块 ， 设 置 天 闭 证 书 验 证 即 可 。 代 码 如 下 : 

import urllib.request 

import ssl 

# 关闭 证 书 验证 

ssl. create default https context-ssl. create unverified context 

url = 'https://kyfw.12306.cn/otn/leftTicket/init'" 

response = urllib.request.urlopen (url) 

# 输出 状态 码 


print (response.getcode () ) 


5.7 数据 处 理 


我 们 知道 urllib.request.urlopen0 方 法 是 不 区 分 请 求 方式 的 , 识别 请 求 方式 主要 通过 参数 data 是 
TJ None. WRAS ERIX POST 请 求 ， 那 么 参数 data 需要 使 用 urllib.parse 对 参数 内 容 进 行 处 
理 。 

Urllib 在 请 求 访问 服务 器 的 时 候 ， 如 果皮 生 数 据 传 递 ， 承 需要 对 内 容 进 行 编 公 处理， 将 包 售 str 
或 bytes 对 象 的 两 个 元 素 元 组 序列 转换 为 百分比 编码 的 ASCII 文本 字符 串 。 如 果 字 符 串 要 用 作 
POST， 那 么 它 应 该 被 编码 为 字 节 ， 否 则 会 导致 TypeEror 错误 。 

Urllib 发 送 POST 请 求 的 方法 如 下 : 


import urllib.request 
import urllib.parse 


url = *'https://movie.douban.com/' 
data = ( 
'value': 'true', 
) 
# 数据 处 理 
data = urllib.parse.urlencode (data).encode('utf-8') 


req = urllib.request.urlopen(url, data-data) 


代码 中 urllib.parse.urlencode(data) 将 数据 转换 成 字 节 的 数据 类 型 ， 而 encode(utf-8) 设 置 字 节 的 
编码 格式 。 这 里 需要 注意 的 是 ， 编 码 格式 主要 根据 网 站 的 编码 格式 来 决定 。urlencodeO 的 作用 只 是 
对 请 求 参数 做 数据 格式 转换 处 理 。 

除 此 之 外 ，Urllib 还 提供 quote0 和 unquoteO 对 URL 编码 处 理 ， 使 用 方法 如 下 : 

import urllib.parse 

url = '$2523$25E7/$25BC£2590$25E/$25A82$258B£22523' 

# 第 一 次 解码 

first = urllrb-parsce.nnquote (url) 

print (first) 

# 输出 : '%$23%E7%BCS$96%E7%$A8%8B$S237 

# 第 二 次 解码 


second = urllib.parse.unquote(first) 
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print (second) 


# 输出 : “# 编 程 # 


上 述 例子 将 已 编码 处 理 的 URL 进行 解码 还 原 ， 同 样 的 方法 ， 可 使 用 quote0 对 数据 进行 编码 处 
理 。quote0 和 unquote0 的 作用 是 解决 请 求 参 数 中 含有 中 广内 容 的 问题 。 


58 本 和 革 小 结 


本 章 主要 讲解 了 Python 自 带 模块 Urllib 的 功能 和 使 用 。Urllib 通常 用 于 疏 虫 开发 和 API (应 用 
程序 编程 接口 ) 数据 获取 和 测试 。 在 Python 2 和 了 Python 3 中 ，Urllib 的 语法 有 明显 的 改变 。 其 第 用 


的 语法 有 以 下 几 种 。 
e urllibrequesturlopen: urllib 最 基本 的 使 用 功能 ， 用 于 访问 URL. (请 求 链接 ) 的 唯一 方法 。 


urllib.request.Request: 声明 request 对 象 ， 该 对 象 可 自 定 义 请 求 头 (header )、 请 求 方式 等 信 
urllib.request.ProxyHandler: 动态 设置 代理 IP 池 ， 可 加 载 请 求 对 象 。 
urllib.request.HTTPCookieProcessor: 设置 Cookies 对象， 可 加 载 请 求 对 象 。 
urllib.request.build opener): 创建 请 求 对 和 象 ， 用 于 代理 IP 和 Cookies XI 2:29 XX. 
urllib.parse.urlencode(data).encode(utf-8): 请 求 数 据 格 式 转换 。 

urllib.parse.quote(url; URL 编码 处 理 ， 主 要 对 URL 上 的 中 文 等 特殊 符号 编码 处 理 。 
urllib.parse.unquote(url): URL 解码 处 理 ， 将 URL 上 的 特殊 符号 还 原 。 


除了 Urllib 之 外 ， 一 些 特殊 请 求 需 要 结合 其 他 模块 配合 使 用 ， 如 Cookies 读 写 由 HTTP 模块 完 
成 ， 关 闭 证 书 验证 需要 SSL 模块 设置 ， 等 等 。 


[E cR EE Requests 


6.1 Requests IAN 


Requests 是 Python 的 一 个 很 实用 的 HTTP Z JP mE, EEMS 8E Hm kK. 与 Urllib 
对 比 ，Requests 不 仅 具 备 Urllib 的 全 部 功能 ， 在 开发 使 用 上 ， 语 法 简单 易 履 ， 完 全 符合 Python 优 
雅 、 简 洁 的 特性 ;在 兼容 性 上， 完全 兼容 Python 2 和 Python 3， 具 有 较 强 的 适用 性 。 

Requests 可 通过 pip 安装 ， 有 具体 如 下 。 


e Windows 系统 : pip install requests, 
e Linux 系统 : sudo pip install requests, 


除了 使 用 pip 安装 之 外 ， 还 可 以 下 载 wh 文件 安 浪 ， 方 法 如 下 


(1) 访问 www.Ifd.uci.edu/-gohlke/pythonlibs, 1Z Ctrl-F 组 合 键 搜索 关键 字 “requests”， 如 
6-1 所 示 。 


requests-2.20.0-py2.py3-none-any.whl 
requests ET 0.1.2- py2.py3- none-any.whl 


图 6-1 安装 requests 
(2) 单 击 下 载 requestsD2.20.0Dpy2.py3DnoneDany.whl， 把 下 载 文件 直接 解压 ， 将 解压 出 来 


的 文件 直接 放 入 Python 的 安装 目录 Lib\site-packages 中 即 可 。 
(3) 际 了 解压 whl, 还 可 以 使 用 pip Z2: whl 文件 。 例 如 把 下 载 的 文件 保存 在 E 盘 , 打开 CMD 
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(HEX) ， 将 路 征 切 换 到 EE 盘 ， 输 入 安装 命令 : 


E:M»pip install requestsB2.20.0P8py2.py3BlnonePlany.whl 


完成 Requests 安装 后 ， 在 终端 (CMD) 下 运行 Python， 查 看 Requests 版 本 信息 ， 检 测 是 否 安 
装 成 功 。 方法 如 下 : 

E:\>python 

>>> import requests 


>>> requests. version 
tu cu cg" 


62 请 求 方式 


HTTP 的 常用 请 求 是 GET 和 POST, Requests 对 此 区 分 两 种 不 同 的 请 求 方式 。GET 请 求 有 两 

# 不 之 参数 

https://www.baidu.com/ 

# 市 参数 wa 

https://www.baidu.com/s?wd-python 

判断 URL 是 否 带 有 参数 ， 可 以 对 符号 “?” 判 断 。 一 般 网 址 末端 (域名 》 带 有 “?”， 就 说 明 
该 URL 是 种 有 请 求 参数 的 ， 反 之 则 不 带 有 参数 。GET 参数 说 明 如 下 : 


(D wd 是 参数 名 ， 参 数 名 由 网 站 〈 服 务 器 ) 规定 。 

(2) python 是 参数 值 ， 可 由 用 户 目 行 设置 。 

G) 如 果 一 个 URL ASTEA, SALH a” E. 
Requests 实现 GET 请 求 ， 对 于 市 参数 的 URL 有 两 种 请 求 方式 : 


import requests 


# 第 一 种 方式 

r = requests.get('https://www.baidu.com/s?wd-python') 
# 第 二 种 方式 

url = 'https://www.baidu.com/s"' 


params — |'wd': 'python"] 

# 左边 params 在 GET 请 求 中 表示 设置 参数 

r = roegHucstsgetiuri, params- params) 

# 输出 生成 的 URL 

print (r.url) 

两 种 方式 都 是 请 求 同 一 个 URL， 在 实际 开发 中 建议 使 用 第 一 种 方式 ， 因 为 代码 人 简洁， 如 果 参 
数 是 动态 变化 的 ， 那 么 可 使 用 字符 串 格 式 化 对 URL 动态 设置 ， 例 如 
'https://www.baidu.com/s?wd-*^s' 9o('python'). 

POST ilk E WIES RE, KEWAA AE POST 的 请 求 参数 。 Requests 实现 
POST 请 求 需 设置 请 求 参数 data， 数 据 格式 可 以 为 字典 、 元 组 、 列 表 和 JSON 格式 ， 不 同 的 数据 格 
式 有 不 同 的 优势 。 代 人 码 如 下 : 
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# 字典 类 型 

data ey c vulucl'o kc uvoalucl 

t 元 组 或 列表 

(t keyl:; waluct 2j. qQ'EGyl', *valuc2 x) 

# JSON 

import json 

data I keyl:: vilael key: valne] 

# 将 字典 转换 JSON 

data-json.dumps (data) 

# AXE POST 请 求 

r — requests.post("https://www.baidu.com/", data-data) 

print (r.text) 

可 以 看 出 ， 左 边 的 data 是 POST 方法 的 参数 ， 右 边 的 data 是 发 送 请 求 到 网 站 《服务 器 ) 的 数 
据 。 值 得 注意 的 是 ，Requests 的 GET 和 了 POST 方法 的 请 求 参 数 分 别 是 params 和 data, HNE AA 

当 癌 网 站 〈 服 务 器 ) 发 送 请 求 时 ， 网 站 会 返回 相应 的 啊 应 (response) 对象， 包含 服 务 器 啊 应 

的 信息 。Requests 提供 以 下 方法 获取 啊 应 内 容 。 


€ rstatus code: 响应 状态 码 。 

e rraw: 原始 响应 体 ， 使 用 rrawread() ER, 

e rcontent 字 叫 方式 的 响应 体 ， 需 要 进行 解码 。 

e Itext: 字符 串 方式 的 响应 体 ， 会 自动 根据 响应 头 部 的 字符 编码 进行 解码 。 
e rheaders: 以 字典 对 象 存储 服务 器 响应 头 ， 但 是 这 个 字典 比较 特殊 ， 字 典 键 不 区 分 大 小 写 ， 
若 键 不 存在 ， 则 返回 None. 

Tjson(O: Requests 中 内 置 的 JSON 解码 器 。 

rraise for status): 请 求 失败 (4E 200 响应 )， 抛 出 异常 。 

rur: 获取 请 求 链接 。 

Tcookies: 获取 请 求 后 的 cookies。 

rencoding: 获取 编码 格式 。 
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从 第 5 章 得 知 , 复杂 的 请 求 方式 通 单 有 请 求 头 、 代 理 P, 证 书 验证 和 Cookies 等 功能 。Requests 
将 这 一 系列 复杂 的 请 求 做 了 人 简化， 将 这 些 功能 在 发 送 请 求 中 以 参数 的 形式 传递 并 作用 到 请 求 中 。 


C) AIMERA: 请 求 头 以 字典 的 形式 生成 ， 然 后 及 送 请 求 中 设置 的 headers 参数 ， 指 网 已 
定义 的 请 求 涉 ， 代 人 码 如 下 : 


headers = [( 
'content-type': 'application/j]son', 
'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; 
rv-41-0) Gecko/20100101 Pireofox/41.0*)] 
requests.get("https://www.baidu.com/", headers-headers) 
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(2) 使 用 代理 IP: 代理 IP 的 使 用 方法 与 请 求 涉 的 使 用 方法 一 致 ， 设 置 proxies 参数 即 可 ， 代 
码 如 下 : 
import requests 
proxies = { 
"hrctp'"- "hp 10 T. 10:31287 
下 六 TRELp//10:T0-1. T0: 19807, 
} 


requests.get("https://www.baidu.com/", proxies-proxies) 
(3) 证 书 验 证 ;通常 设置 关闭 验证 即 可 。 在 请 求 设置 参数 verify-False 时 就 能 关闭 证 书 的 验 
证 ， 默 认 情 况 下 是 True。 如 果 需 要 设置 证 书 文件 ， 那 么 可 以 设置 参数 verify 信 为 证 书 路 径 。 
import requests 
url = 'https://kyfw.12306.cn/otn/leftTicket/init' 
# 关闭 证 书 验证 
r — requests.get(url, verify-False) 
print(r.status code) 
# 开启 证 书 验 证 
# r = requests.get (url, vecity-Trucs) 
# 设置 证 书 所 在 路 径 
# r = requests.get (url, verrty- '/parh/to/certt1le") 
(4) 超时 设置 友 壕 请 求 后 ， 由 于 网 络 、 服 务 名 等 因 系 ,请求 到 获得 啊 应 会 有 一 个 时 间 舌 。 
如 果 不 想 程序 等 等 时 间 过 长 或 者 延长 等 竺 时间， 可 以 设 定 timeout 的 等 待 秒 数 ， 超 过 这 个 时 间 之 后 
停止 等 待 啊 应 。 如 果 服 务 器 在 timeout 秒 内 没有 应 答 ， 将 会 引 友 一 个 异常 。 使 用 代码 如 下 : 
requests.get("https://www.baidu.com/", timeout-0.001) 
requests.post("https://www.baidu.com/", timeout-0.001) 
(5) 使 用 Cookies: 在 请 求 过 程 中 使 用 Cookies 也 只 需 设 置 参数 Cookies Bl nf. Cookies 的 作 
用 是 标识 用 户 身 份 ， 在 Requests 中 以 字典 或 RequestsCookieJar 对 象 作 为 参数 。 获 取 方 式 主 要 是 从 
浏览 夯 读 取 和 程序 运行 所 产生 。 下 面 的 例子 进一步 讲解 如 何 使 用 Cookies， 代 码 如 下 : 
import requests 
temp cookies-'JSESSIONID GDS-y4p7osFr IYV5Udyd6cldrWE8MeTpOn0Y58Tg8cCONVPO 
20y2N!450649273;name-value' 
cookies dict — fj 
for 1 in temp cookres.spliibr';")- 
value = 1.split("'=") 
cookies dict [value[O1] — waluelli 
r — requests.get(url, cookies-cookies) 
print (r.text) 
代码 中 变量 temp cookies 是 Cookies 信息 ,可 以 在 Chrome 开发 者 工具 一 Network 一 菜 请 求 的 
Headers 一 Request Headers 中 找到 Cookie 所 对 应 的 值 。 然 后 将 字符 串 转 换 成 字典 格式 ， 转 换 规 则 主 
要 执行 两 次 分 割 : 第 一 次 以 “; ”分 割 ， 得 到 列表 A， 第 二 次 是 列表 A 的 每 一 个 元 系 以 “=” 分 荐 |， 
得 到 字典 的 键 值 对 。 
当 程 序 发 送 请 求 时 〈 不 设 参 数 cookies) ， 会 目 动 生成 一 个 RequestsCookieJar XJ R, i206] $& FH 
于 存放 Cookies 信息 。Requests 提供 RequestsCookieJar 对 象 和 字典 对 象 的 相互 转换 ， 代 码 如 下 : 


import requests 
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url = 'hbttps://movie.douban.com/ ' 
DO rousucsts eter 

# r.cookies 是 RequestsCookieJar 对 象 
print (r.cookies) 

mycookies = r.cookies 


# RequestsCookieJar 转换 字典 
cookies dict = requests.utils.dict from cookiejar (mycookies) 
print (cookies dict) 


# 字典 转换 RequestsCookieJar 

cookies jar = requests.utils.cookiejar from dict (cookies dict, 
cookiejar-None, overwrite=True) 

print (cookies jar) 


# 在 RequestsCookieJar 对 象 添加 Cookies 字典 中 

printtrequests.utils.add dict to cookriejariümycook:es, Cookies dict)) 

如 果 要 将 Cookies 写 入 文件 , 可 使 用 http 模块 实现 Cookies 的 读 写 。 除 此 之 外 ,还 可 以 将 Cookies 
以 字典 形式 写 入 文件 ， 此 方法 相 比 http 模块 读 写 Cookies 更 为 简单 ， 但 安全 性 相对 较 低 。 使 用 方法 
WF: 


import requests 


url = 'hbttps://movie.douban.com/ ' 

E = requests-geriurtj 

# RequestsCookieJar 转换 字典 

cookies dict = requests.utils.dict from cookiejar (mycookies) 
E 写 入 文件 

f = open('cookies.Lxt', 'w', encoding-'utf -8') 
t.write(strE(cookies dict)) 

i-closet) 

E 读 取 文件 

f = open ({'cookies.txt', *'r*J 

dict value = I-readt) 

[cc user) 


# eval(dict value) 将 字符 串 转换 为 字典 
print(eval(dict value)) 

r — requests.get(url, cookies-eval(dict value)) 
printir.status code) 
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下 载 文件 主要 从 服务 器 获取 文件 内 容 ， 然 后 将 内 容 保 存 到 本 地 。 下 载 文件 的 方法 如 下 : 


import requests 

url = 'https://www.python.org/static/img/python-logo.png' 
requeoesuvs-germri) 

open('python.jpg', 'wb') 

.content 获取 啊 应 内 容 ( 字 节 流 ) 

.writeir.content) 

.close() 


Fh Fh s rH 
Fs 
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代码 变量 url 是 一 个 图 片 文件 URL 地 址 ， 对 文件 所 在 URL 地 址 发 送 请 求 〈 大 多 数 是 GET 请 
求 方式 ) ; 服务 器 将 文件 内 容 作为 响应 内 容 ， 然 后 将 得 到 的 内 容 以 字 节 流 (Byte) 格式 写 入 自 定 
义 文件 ， 这 样 就 能 实现 文件 下 载 。 


除了 文件 下 载 外 ， 还 有 更 为 复杂 的 文件 上 传 ， 文 件 上 传 是 将 本 地 文件 以 字 节 流 的 方式 上 传 到 
服务 器 ， 再 由 服务 器 接收 上 传 内 容 ， 并 做 出 相应 的 啊 应 。 文 件 上 传 存在 一 定 的 难度 ， 其 难点 在 于 服 
务 器 接收 规则 不 同 , 不 同 的 网 站 接收 的 数据 格式 和 数据 内 容 会 不 一 致 。 下 面 以 发 送 图 片 微 博 为 例 进 
行 介绍 。 

(1) 在 浏览 器 中 输入 https:/weibo.cn/, 在 网 页 上 单 击 “ 高 级 ”按钮 并 使 用 Fiddler 抓 包 工具 (由 
于 发 送 微 博时 ， 网 页 发 生 302 跳 转 ， 因 此 使 用 Chrome 会 清空 请 求 信息 ， 导 致 抓 取 难度 较 大 ) 。 

(2) 单 击 “ 选 择 文件 ”， 选 择 图 片 文件 并 输入 发 布 内 容 “Python 爬虫 ”， 最 后 单 击 “ 发 布 ” 
按钮 发 布 微 博 。 查 看 Fiddler 抓 取 的 请 求 信息 ， 如 图 6-2 所 示 。 


SS WinConfig C) fr Replay X- k Go | 时 Stream Si Decode | Keep: All se es Any Process JA Find [al Save | Eg (5 e Browse - 4% Clear Cache 


Host URL pg [ ] Filters = Timeline | 
ae | j | ; 。 | 
webom — mblog/deleici-F... :charset=u — 2) Sinüsbcs | is IMs : | ii Br Co PE: IB J ridder r Orchestra Beta | 引 Fidder | 
weibo | Jmblog/del?txpe... | 
wE c oen resi 


einn Mee AE text/html; charset-u 
[3.5 weibocn mblog/sendmbie... text/html; charset-ud 
^ — weibo.cn  jmblog/sendmbio.. . 
weibn.cn  /1777128213jp... 
WX... jwap LsuJ/es 7 


tefi 
ee ee name= -"pic flename ="test, png" 


[erimus Wu E ame=" vble™ 


ET 


TextiViem Syntax ie ImegeWiew Hexview 


HIIBÓ i. 1 302 Found 
Cache 
Date: Fri, 22Dec 2017 04:05:38 GMT 


Content-Seari T mci jngecurg-reguests 


| 
https PERA i Eh d- 1Bct-beJ02 


图 6-2 Fiddler 抓 取 的 请 求 信息 


从 图 6-2 得 知 ， 访 请求 方 式 是 POST. QueryString 是 POST 的 请 求 参 数 data, Content-type 是 
上 传 文件 ,三 个 Content-Disposition 分 别 对 应 发 布 内 容 、 发 布 图 片 和 设置 分 组 可 见 。 代 码 实现 如 下 : 
url = 'https://weibo.cn/mblog/sendmblog?rl-0&st-bd6702' 
conkres — puesto o texxtE 
files — ['content': (None, "Python f[ÉiB') , 
'pic': ('pic', open('test.png', 'rb'), 
"image/pnq'),'wisrble': (None, '0') 
r = requests.post (url, files=files, cookies-cookies) 
prunti(r-statnus code) 


POST 数据 对 象 是 以 文件 为 主 的 ， 上 传 文 件 时 使 用 files 参数 作为 请 求 参 数 。 Requests 对 提交 的 
数据 和 文件 所 使 用 的 请 求 参 数 做 了 明确 的 规定 。 

参数 files 也 是 以 字典 形式 传递 的 ， 每 个 Content-Disposition 为 字典 的 键 值 对 ， 
Content-Disposition 的 name 为 字典 的 键 ，value 为 字典 的 值 。 

此 外 ， 不 同 的 网 站 设置 对 files 参数 的 设置 也 是 不 一 样 的 ， 下 面 列 出 较为 常见 的 上 传 方法 : 
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# 单独 一 个 文件 请 求 
| 

"fieldi" : open("rilcePatht", "rb'"*).readi)) 
) 


# 同 时 选中 多 个 文件 
| 
"ErIdpt d 

("filenamel™", open("filePathi™", “rb™))}), 
("filename2"™, open("tilePath2", "rb"), "image/png"), 
open ("filePath3", "rb"), 
open ("filePath4", "rb").readt) 
] 
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Requests 是 Python 的 一 个 很 实用 的 HTTP 客户 问 库 ， 可 完全 满足 如 今 编写 网 络 爬 虫 程序 的 需 
求 ， 是 爬虫 开 上 友人 员 首 选 的 朴 虫 库 。 其 具有 语法 简单 易 居 ， 完 全 符合 Python 优雅 和 简洁 的 特性 ， 
在 兼容 性 上 完全 莱 容 Python 任何 版 本 ， 具 有 较 强 的 适用 性 。 
读者 要 掌握 Requests 实现 GET 和 POST 请 求 时 分 别 使 用 了 不 同 的 方法 ， 如 下 代码 所 示 : 
import requests 
url = 'hbttps://baidu.com/ ' 
# GET 请 求 
ro  reguests- gel (Urr headers headers, 
proxies-proxies,verify-False,cookies-cookies) 
# POST 请 求 
r — requests.post(url,data-data,files-files, 
headers-headers, proxies-proxies, 
verify-False, cookies-cookies) 


Requests 的 GET 和 POST 将 请 求 中 所 需要 使 用 的 功能 部 以 参数 的 形式 直接 作用 到 请 求 中 。 一 
个 发 送 请 求 的 语句 就 已 包含 了 请 求 涉 、 代 理 了 一、Cookies、 证 书 验 证 、 文 件 上 传 等 功能 。 

男 外 ，Requests 还 提供 了 rstatus code, rraw. r.content. r.text. r.headers. r.json(). 
rraise for status(). r.url, r.cookies. r.encoding 10 种 方法 获取 啊 应 内 容 。 


Requests-Cache JE rz fz 


7.1 HRR 


Requests-Cache XE Requests 模块 的 一 个 扩展 功能 ， 它 是 根据 Requests 的 发 送 请 求 来 生成 相应 
的 缓存 数据 。 当 Requests 重复 回 同 一 个 URL 发 送 请 求 的 时 候 ，Requests-Cache 会 判断 当前 请 求 是 
伸 已 产生 缓存 ， 夺 已 有 绥 存 ， 则 从 缓存 里 读 取 数 据 作 为 啊 应 内 容 ; AART. ME P H ARI EA 
送 请 求 ， 并 将 得 到 的 啊 应 内 容 写 入 相应 的 数据 库 里 。 

Requests-Cache 的 作用 非常 重要 ,， 它 可 以 减少 网 络 资源 重复 请 求 的 次 数 , 不 仅 减轻 了 本 地 的 网 
络 负载 ， 而 且 还 减少 了 压 虫 对 网 站 服务 屡 的 请 求 次 数 ， 这 也 是 解决 反扑 里 机 制 的 一 个 重要 手段 。 

安装 Requests-Cache 可 以 通过 pip 指令 完成 ， 在 CMD 窗口 下 输入 pip install requests-cache 指 
令 并 按 回 车 键 , 等 行 安装 完成 即 可 。 安 装 成 功 后 进入 Python 交互 模式 ,进一步 验证 Requests-Cache 
是 否 安装 成 功 ， 具 体 的 操作 如 下 : 

C:\Users\000>python 

>>> import requests cache 


>>> requests cache. version 
"0-4. L3" 


7.2 TE Requests 中 使 用 缓存 


Requests-Cache 3$ fj Requests 的 使 用 规则 : 功能 强大 并 使 用 简单 ,整个 缓存 机 制 由 install cacheO 
方法 实现 。install cache0 方 法 定义 如 下 所 示 : 


install cache (cache name-'cache',backend-None,expire after-None, 
allowable codes-(200,),allowable methods-('GET',), 
session factoryc:CachedSessron, Backend optrons) 


install cache0 定 义 了 多 个 函数 参数 ， 每 个 参数 的 说 明 如 下 : 


è cache name: 默认 值 为 cache， 这 是 对 缓存 的 存储 文件 进行 命名 。 
€ backend: 设置 缓存 的 存储 机 制 ， 默 认 值 为 None， 即 默认 sqlite 数据 库存 储 。 
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expire after: 设置 缓存 的 有 效 时 间 ， 默 认 值 None， 即 为 永久 有 效 。 

allowable codes: 设置 HTTP 的 状态 码 ， 默 认 值 为 200。 

allowable methods: 设置 请 求 方式 ， 默 认 值 是 只 允许 GET 请 求 才 能 生成 缓存 。 

session factory: 设置 缓存 的 执行 对 和 龟 ， 由 CachedSession 类 实现 , 该 类 是 由 Requests-Cache 
*  **backend options: 设置 存储 配置 ， 疙 缓存 的 存储 选择 sqlite, redis 或 mongoDB 数据 库 ， 
则 该 参数 是 设置 数据 库 的 连接 方式 。 


在 实际 应 用 中 ，install cacheO 可 以 直接 使 用 ,无 需 设 置 任 何 参数 ， 因 为 Requests-Cache 已 对 相 
天 的 参数 设置 了 默认 值 ， 这 些 默 认 值 基 本 能 满足 日 和 营 的 开 及 需求。 

使 用 Requests-Cache 之 前 ， 首 先 创 建 一 个 简单 的 网 站 系统 ， 这 是 由 Flask 框架 开发 的 Web 系 
统 ， 主 要 是 方便 验证 Requests-Cache 的 缓存 功能 。 我 们 需要 安装 Flask 框架 模块 ， 在 CMD 窗口 下 
输入 pip 指令 (pip install flask). 并 等 待 安装 完成 。 然 后 创建 MyFlask.py 文件 ， 并 在 文件 里 面 编写 
以 下 代码 : 

from flask import Flask 


# 创建 一 个 Flask 实例 
app = Flask!( name ) 


# 设置 路 由 ， 即 url 

QGapp.route('/') 

# url 对 应 的 函数 

def hello worldt)-:- 
# 返回 的 页 面 


return 'Hello World!' 


# 程序 运行 
1f name == ' main ': 
app.run() 
上 述 代 三 创 建 了 一 个 徐 单 的 网 站 首页 ， 网 页 内 容 是 “Hello World!" . Œ PyCharm 或 CMD fi 
口 下 运行 MyFlask.py 文件 即 可 运行 一 个 简单 的 Web 系统 ， 网 站 的 后 台 信 息 如 图 7-1 所 示 。 


* Serving Flask app “MyFlask” (lazy loading) 


* Environment: production 
WARNING: Do not use the development server in a production environment. 
Use a production WSGI server instead. 

* Debug mode: off 

* Running on http;//127.0.0, 1:5000/ (Press CTRL+C to quit) 


图 7-1 网 站 的 后 台 信 息 


使 用 浏览 絮 访 问 图 上 的 地 址 链接 即 可 看 到 网 站 的 站 页 ， 浏 览 如 每 次 成 功 访 问 网 站 ， 痢 会 在 网 
站 后 台 出 现 相 关 的 请 求 信 息 。 根 据 这 个 规则 ， 使 用 Requests+Requests-Cache 对 网 站 进行 两 次 访问 ， 
查看 网 站 后 台 请 求 信息 的 出 现 次 数 。 如 果 请 求 信息 只 出 现 一 次 , 说 明 息 虫 缓存 正常 使 用 ， 反之 则 说 
明 Requests-Cache 无 法 生成 缓存 。Requests-Cache 的 使 用 方法 如 下 所 示 : 


import requests 
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import requests cache 
# 使 用 install cache (0) 777 
requests cache.install cache () 
# 清除 已 有 的 缓存 
requests Cache Cliear() 
+ 访问 自 定 义 的 Web 系统 
url = 'http://127.0.0.1:5000/" 
# Gu session 会 话 
session = requests.session() 
# 执行 两 次 访问 
for t in range (2): 
r — session.get (url) 
# from cache 是 requests cache 的 函数 
t 若 输 出 True， 说 明生 成 缓存 。 


print(r.from cache) 


运行 上 述 代码 ， 程 序 会 依次 输出 False 和 True, False 代表 第 一 次 访问 还 没有 生成 相关 的 缓存 ; 
True 代表 第 二 次 访问 束 已 有 相关 的 缓存 数据 。 同时 代码 所 在 的 文件 路 径 中 会 生成 cache.sqlite 文件 ， 
这 是 sqlite 数据 库 文 件 ， 用 于 存储 缓存 信息 。 此 外 ， 网 站 后 台 仅 有 一 条 请 求 信 和 息 ， 如 图 7-2 所 示 。 


Serving Flask app "MyFlask/ (lazy loading) 


Environment: production 
WARNING: Do not use the development server in a production environment. 
Use a production WSGI server instead. 


Debug mode: off 


图 7-2 请 求 信息 


如 果 短 时 间 内 多 次 访问 网 站 服务 右 ， 很 容易 焉 到 服务 占 的 拦截 ， 从 而 认定 这 些 请 求 是 通过 的 
忠 程 序 执行 ， 而 非 人 为 操作 ， 这 是 反扑 虫 第 见 的 机 制 之 一 。 为 了 降低 访问 频 京 ， 可 以 在 每 个 请 求 之 
间 设 置 一 个 ttme.sleepO 国 数 ， 虽 然 能 降低 访问 频率 , 但 这 样 处 理 就 显得 不 太 友 好 。 因 为 两 次 请 求 之 
间 ， 第 一 次 才 是 真正 访问 网 站 后 台 ， 而 第 二 次 是 直接 从 数据 库 读 取 绥 人 存 数 据 ， 所 以 这 两 次 请 求 之 间 
Jur ix EL AEST e 

那么 如 何 判断 这 次 请 求 是 否 已 有 缓存 ， 每 个 请 求 之 间 应 如 何 合理 地 设置 延 时 等 待 ? 为 此 ， 
Requests-Cache 可 以 目 定义 钧 子 函 数 ， 通 过 函数 去 合理 判断 是 否 设 置 延 时 ， 函 数 的 定义 与 使 用 方法 
如 下 : 


import time 
import requests cache 


# 定义 钩子 函数 
def make throttie hook (delay=1-0}: 
der hook (response, *args, **kwargs): 
# 如 果 没 有 缓存 ， 则 添加 延 时 
if not getattr(response, 'from cache', False): 
print('delayTime') 
time.sleep (delay) 
return response 
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return hook 


if name == l main ': 
Foguests cache. Install cache) 
requests cache clear) 


# ET ERIT 8 H 
s = requests cache.CachedSession() 
S-hlooks — | response: Make throttle Hook(2)]} 
s-geLt hEEpzz/ 77-0 -9-1:90007 *] 
s-el rt hCEp:z77127-0-0-1:5000D7-") 
从 函数 make throttle hook 的 结构 可 以 看 出 ， 这 种 函数 结构 其 实 是 一 个 装饰 器 的 定义 过 程 。 也 
就 是 说 ， 通 过 定义 装饰 器 来 判断 每 次 请 求 是 否 已 有 缓 存 数据 ， 从 而 决定 是 否 设 置 延 时 等 街 。 


7.3 缓存 的 存储 机 制 


Requests-Cache X ff sqlite, redis 和 mongoDB 数据 库存 储 缓存 信息 ， 此 外 ， 还 可 以 将 缓存 存 
储 在 计算 机 的 内 存 中 。 也 就 是 说 Requests-Cache XEF 4 种 不 同 的 存储 机 制 : memory, sqlite, redis 
和 mongoDB, 4 种 存储 机 制 说 明 如 下 : 


e memory: 每 次 程序 运行 都 会 将 缓存 以 字典 的 形式 保存 在 内 存 中 ,程序 运行 完毕 , 缓存 也 随 
之 销毁 。 
sqlite: 将 缓存 存储 在 sqlite 数据 库 ， 这 是 Requests-Cache 默认 的 存储 机 制 。 
redis: 将 缓存 存储 在 redis 数据 库 ， 通 过 redis 模块 实现 数据 库 的 读 写 。 

e mongoDB: 将 缓存 存储 在 mongoDB 数据 库 ， 通 过 pymongo 模块 实现 数据 库 的 读 写 。 


在 Requests-Cache 设置 不 同 的 存储 机 制 只 需 对 install cache0 方 法 的 参数 backend 进行 设置 即 
可 ， 上 有 具体 设置 如 下 : 

import requests cache 

# 设置 memory 存储 

requests cache.install cache (backend-'memory') 

# 设置 sqlite 存储 

requests cache.install cache (backend-'sqlite') 

# WE redis 存储 

requests cache.install cache (backend-'redis') 

# 设置 mongo 存储 


requests cache.install cache (backend-'mongo') 
如 果 选 择 redis 或 mongoDB 作为 存储 介质 , 还 需要 分 别 安装 redis 模块 或 pymongo 模块 , 这 两 
个 模块 均 可 通过 pip 指令 安装 ， 同 时 也 要 保证 本 地 计算 机 已 安装 redis 或 mongoDB 数据 库 。 
除 此 之 外 ，Requests-Cache 还 提供 了 其 他 功能 图 数 ， 谍 者 可 以 在 Requests-Cache 的 源码 文件 
(Lib\site-packages\requests_ cache\core.py) 找到 相关 函数 以 及 说 明 。 
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Requests-Cache 是 Requests 模块 的 一 个 扩展 功能 ， 它 是 根据 Requests 的 发 送 请 求 来 生成 相应 
的 缓存 数据 ， 其 作用 非 党 重要， 可 以 减少 网 络 资 源 重 复 请 求 的 次 数 ， 不 仅 减 轻 了 本 地 的 网 络 负载 ， 
而 且 还 可 以 减少 人 息 虫 对 网 站 服务 颖 的 请 求 次 数 ， 这 也 是 解决 反扑 虫 机 制 的 一 个 重要 手段 。 

整个 缓存 机 制 由 install cache0 方 法 实现 ， 该 方法 的 参数 说 明 如 下 。 


e cache name: 默认 值 为 cache， 这 是 对 缓存 的 存储 文件 进行 命名 。 

backend: 设置 缓存 的 存储 机 制 ， 默 认 值 为 None， 即 默认 sqlite 数据 库存 储 。 

expire after: 设置 缓存 的 有 效 时 间 ， 默 认 值 None， 即 为 永久 有 效 。 

allowable codes: 设置 HTTP 的 状态 码 ， 默 认 值 为 200。 

allowable methods: 设置 请 求 方式 ， 默 认 值 是 只 允许 GET 请 求 才 能 生成 缓存 。 

session factory: 设置 缓存 的 执行 对 和 象 ， 由 CachedSession 类 实现 , 该 类 是 由 Requests-Cache 

x Xs 

€  **backend options: 设置 存储 配置 ， 老 缓存 的 存储 选择 sqlite, redis 或 mongoDB 数据 库 ， 
则 该 参数 是 设置 数据 库 的 连接 方式 。 


Requests-Cache x £r 4 种 不 同 的 存储 机 制 : memory, sqlite, redis 和 mongoDB，4 种 存储 机 制 
说 明 如 下 。 
e memory: 每 次 程序 运行 都 会 将 缓存 以 字典 的 形式 保存 在 内 存 中 ,程序 运行 完毕 ,缓存 也 随 
AB SR. 
sqlite: 将 缓存 存储 在 sqlite 数据 库 ， 这 是 Requests-Cache 
e redis: 将 缓存 存储 在 redis 数据 库 ， 通 过 redis D—— 
mongoDB: 将 缓存 存储 在 mongoDB 数据 库 ， pymongo 模块 maid 的 读 


ü cR EE Requests-HTML 


8.1 简介 及 安装 


Requests-HTML 是 在 Requests 的 基础 上 进一步 封装 ， 两 者 部 是 由 同一 个 开发 者 开发 。 
Requests-HTML 除了 包含 Requests 的 所 有 功能 之 外 ， 还 新 增 了 数据 清洗 和 Ajax 数据 动态 泻 染 。 

数据 清洗 是 由 lxml 和 PyQuery 模块 实现 ,这 两 个 模块 分 别 文 持 XPath Selectors fI CSS Selectors 
定位 ， 通 过 XPath 或 CSS 定位 ， 可 以 精准 地 提取 网 页 里 的 数据 。 

Ajax 数据 动态 泻 染 是 将 网 页 的 动态 数据 加 载 到 网 页 上 再 抓 取 。 网 页 数据 可 以 使 用 Ajax 回 服务 
IROS HTTP 请 求 ， 再 由 JavaScript 完成 数据 泻 染 ， 如 果 直 接 同 网 页 的 URL 3d 35 HTTP 请 求 ， 
并 且 网 页 的 部 分 数据 是 来 目 Ajax， 那 么 ， 得 到 的 网 页 信息 就 会 有 所 缺失 。 而 Requests-HTML 可 以 
将 Ajax 动态 数据 加 载 到 网 页 信息 ， 无 需 爬 虫 开 上 发 者 分 析 Ajax 的 请 求 信息 。 

Requests-HTML 的 安装 可 使 用 pip 指令 完成 ， 但 Requests-HTML 只 文 持 Python 3.6 以 上 的 版 
本 。 本 书 以 Python 3.7 为 例 ， 在 CMD 窗口 输入 安装 指令 pip install requests-html， 等 竺 安装 完成 即 
可 。 

在 CMD 窗口 进入 Python 交互 模式 ， 通 过 导入 requests-html 模块 并 输出 模块 里 的 属性 
DEFAULT URL 的 属性 值 ， 从 而 验证 requests-html 模块 是 否 安 装 成 功 ， 如 下 所 示 : 

C:\Users\000>python 

>>> import requests html 


>>> requests htkml.DEPAULT URL 
'https://example.org/' 
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Requests-HTML 回 网 站 发 送 请 求 的 方法 是 来 目 Requests 模块 ， 但 是 Requests-HTML 只 能 使 用 
Requests 的 Session 模式 ， 该 模式 是 将 请 求 会 话 实现 持久 化 ， 使 这 个 请 求 保 持 连接 状态 。Session $ 
式 好 比 我 们 在 打 电 话 的 时 候 , 只 要 双方 没有 挂 断 电话 , 就 会 一 直 保 持 一 种 会 话 ( 连 接 ) 状态。Session 
模式 对 HTTP 的 GET 和 了 POST 请 求 也 是 由 get0 和 post0 方 法 实现 ， 具 体 的 使 用 方法 如 下 : 

from requests html import HTMLSession 

# 定义 会 话 Session 

session = HTMLSession() 

url = "'https-://movie.douban.com/ ' 

# 发 送 GET 请 求 

r — session.get (url) 

# 发 送 POST 请 求 

r = session.post(url, data-(]) 

# 输出 网 页 的 URL 地 址 

print (r.html) 

上 述 代码 分 别 对 同一 个 URL 使 用 get0 和 post0 方 法 ， 由 于 get0 和 post0 方 法 都 来 自 Requests 
模块 ， 因 此 还 可 以 对 这 两 个 方法 设置 相关 的 参数 ， 如 请 求 参数 、 请 求 头 、Cookies、 人 代理 IP 以 及 证 
书 验证 等 。 

Requests-HTML 在 请 求 过 程 中 还 做 了 优化 处 理 ， 如 果 没 有 设置 请 求 头 ， Requests-HIML 就 会 
默认 使 用 源码 里 所 定义 的 请 求 尖 以 及 编码 格式 。 在 Python 的 安 逆 目录 下 打开 Requests-HTML 的 源 
t 文件 (C WLibsite-packageswequests html.py ) ， 定 义 了 属性 DEFAULT ENCODING 和 
DEFAULT USER AGENT， 分 别 对 应 编码 格式 和 HTTP 的 请 求 涉 ， 如 图 8-1 所 示 。 


DEFAULT ENCODING |- 'utf-8' 


DEFAULT URL = 'https://example.org/' 


DEFAULT USER AGENT |- 'Mozilla/5.0 (Macintosh; Intel Mac 08 X 10 12 6) AppleWebKit/603.3.8 (KHTML, like Gecko) Version/10.1.2 Safari/603.3.8' 
DEFAULT NEXT SYMBOL = ['next', 'more', older’ ] 


图 8-1 默认 属性 
83 数据 清洗 


Requests-HI ML 不 仅 优 化 了 请 求 过 程 ， 还 提供 了 数据 清洗 的 功能 ， 而 Requests 模块 只 提供 请 
求 方法 ， 并 不 提供 数据 清洗 ， 这 也 体现 了 Requests-HTML 的 一 大 优点 。 使 用 Requests 开发 的 爬虫 ， 
数据 清洗 需要 调用 其 他 模块 实现 ， 而 Requests-HTML 则 将 两 者 结合 在 一 起 。 

Requests-HTML 提供 了 各 种 各 样 的 数据 清洗 方法 , 比如 网 页 里 的 URL 地址、HTML 源码 内 容 、 
文本 信息 等 ， 使 用 方法 如 下 所 示 : 

from requests html import HTMLSession 


* EX 4 session 


session = HTMLSession() 
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url = "'htps:/fmovie.douban.com" 
I RIGET K 

r = session.get (url) 

# 输出 网 页 的 URL 地 址 

print (r.html) 

# 输出 网 页 里 全 部 URL 地 址 
prirnt(r-htmt. T inks) 

# 输出 网 页 里 精准 的 URL 地 址 
print(r.html.absolute links) 

# 输出 网 页 的 HTML 信息 

print (r.text) 

# 输出 网 页 的 全 部 文本 信息 ， 即 去 除 HTML 代码 
print (r.html .text) 


5/ 


上 述 代 码 只 是 提取 了 网 站 的 基本 信息 , 如果 想 要 精准 地 提取 某 个 数据 , 可 以 使 用 find . xpath(. 


searchO0 和 search all0 方 法 实现 。 首 先 了 解 这 4 种 方法 的 定义 及 相关 的 参数 说 明 : 


PENX 

find(selector, containing, clean, first, encoding) 
# 参 数 说 明 

selector: 使 用 Css selector 定位 网 页 元 素 。 


containing: 字符 串 类 型 ， 默 认 值 为 None， 通 过 特定 文本 查找 网 页 元 素 。 


clean: 是 否 清除 HTML 的 <script> 和 <style> 标 签 ， 默认 值 为 False。 
first: 是 否 只 查找 第 一 个 网 页 元 素 ， 默 认 值 为 false 即 查 找 全 部 元 素 。 
encoding: 设置 编码 格式 ， 默 认 值 为 None。 


FEX 

xpath(selector, Clean, first, encoding) 

# 参 数 说 明 

selector: 使 用 XPath selector 定位 网 页 元 素 。 

clean: 是 否 清除 HTML 的 <script> 和 <style> 标 签 ， 默 认 值 为 False。 
first: 是 否 只 查找 第 一 个 网 页 元 素 ， 默 认 值 为 False 即 查 找 全 部 元 素 。 
encoding: 设置 编码 格式 ， 默 认 值 为 None。 


# 定 义 

search (template) 

# 参 数 说 明 

template: 通过 元 率 内 容 查 找 第 一 个 元 素 


# 定 义 
search all (template) 


# 参 数 说 明 
template: 通过 元 素 内 容 查 找 全 部 元 素 


以 豆 浙 电影 的 网 页 为 例 ， 在 浏 宽 瘟 中 打开 豆 流 电影 的 网 页 并 使 用 开发 者 工具 分 析 网 页 信息 ， 


分 别提 取 电 影 名 与 评分 ， 网 页 元 素 信 息 如 图 8-2 所 示 。 
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图 8-2 ”数据 精准 提取 


从 图 8-2 中 发 现 ， 电 影 名 在 标签 <li class="title"> 里 ， 评 分 在 标签 <li class='"rating"> 里 ， 因 此 上 
述 4 种 定位 方法 的 使 用 如 下 所 示 : 


from requests html import HTMLSession 
t EX Zi session 

session = HTMLSession() 

url = 'https://movie.douban.com/' 

# 发 送 GET 请 求 


r — session.get (url) 


E 通过 CSS Selector 定位 li R&S, ".title^"[UX class 属性 
# first-True 代表 获取 第 一 个 元 素 

print (r.html .find(" li.title', first=True}) .text) 

# 输出 当前 标签 的 属性 值 

print (r.html .find('1i.title', first=True) .attrs) 
print(" 分 割 线 g. 


# 查找 特定 文本 的 元 素 
# 如 果 元 素 所 在 的 HTML 里 含有 containing 的 属性 值 即 可 提取 
for name in r.-html.-find('li'", containing- 是 能 "= 
# 输出 电影 4 
print (name.text) 


print(" 分 割 线 2) 
# 查找 全 部 电影 名 


for name in r-htmli-£r:ndi(*Is-titie*)- 
# 输出 电影 名 
print (name.text) 
# 输出 电影 名 所 在 标签 的 属性 值 
print (name.attrs) 


print (' 4] àl| £X, "j 


# 通过 XPath Selector 定位 ul 标签 
x = r.hitml.xpath['//^]Bid-"screening"T/drv[2] /ul1"') 
ior name in x: 

print (name.text) 


priant[' 4] l| £X ") 
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# search () 通过 关键 字 查 找 内 容 

# 一 个 {} 代 表 一 个 内 容 ， 内 容 可 为 中 文 或 英文 等 
print (r.html.search('dü Se RE ")) 
prin í" 分 割 线 E 


# search all() 通 过 关键 字 查 找 整 个 网 页 符合 的 内 容 
# 一 个 {代表 一 个 内 容 ， 内 容 可 为 中 文 或 英文 等 
print (r.html.search all(' 古 证 奇 谭 {}{}')) 


如 果 使 用 XPath Selector 或 CSS Selector 实现 元 末 定 位 ， 需 要 掌握 XPath 或 CssSelector 语法 。 
这 两 者 的 语法 本 书 不 做 详细 介绍 ， 有 兴趣 的 读者 可 目 行 查 疯 相关 资料 。 


8.4 Ajax 动态 数据 抓 取 


如 果 使 用 Requests-HTML 请 求 网 页 地 址 ， 相 应 的 啊 应 内 容 与 开发 者 工具 的 Doc 选项 卡 的 啊 应 
内 容 是 一 致 的 。 如 果 网 页 数据 是 通过 Ajax 请 求 并 由 JavaScript 演 染 到 网 页 上 ， 还 需要 使 用 


Requests-HTML 模拟 Ajax 请 求 来 获取 网 页 数据 。 


对 于 疏 虫 开发 者 来 说 ， 模 拟 Ajax 请 求 是 一 件 相当 痛苦 的 事情 ， 比 如 构建 请 求 参 数 ， 请 求 参数 
的 构建 方式 繁多 而 复杂 ， 这 非常 考验 开发 者 对 网 站 的 分 析 能 力 。 以 QQ 音乐 的 歌手 列表 页 为 例 ,每 


位 歌手 的 名 字 都 是 由 Ajax 加 载 到 网 页 上 ， 如 图 8-3 所 示 。 


GEM. 邓 紫 柑 


Flements Console Sources Network Performance Memory Application Security Audits 


Y U | Viw is Group by frame Preserve log *! Disable cache Offline Online 


Hide dah URLs All XHR BET C55 Img Media Font Doc WS Manifest Other 
X  Hdaders Preview Response Cookies Timing 
- E E . 1 
singer. getlist.fcg?ut i y 
?callback=getUCGI4 
?callback-getUCGl5 country; "dri" 
ax age-2592000 
aB29.|s?max age-3* 


A E 


ax age-25920008&v singer pic: "http: gt n/music/photo new/T881R158x158Mee0001fMHEf1SFEFN webp" 
fca?g tk-24531861. ki: [country: “内 地 "，singer id: 5062, singer mid: "602J4UUk29y8BY", singer name: "i 
n +2: (country: "GIS", singer id: 4558, singer mid: "6825NhlN2yWrPA", singer name:| "jA 
3: (country: "AW", singer id: 68585, singer mid: "eeeaHmbL2aPXWH", singer namal: ' 
REID ded 4: (country: "Aib", singer id: 1199380, singer mid: "G0913RsPD3XsOFG", singer nage; " 


d/c802e.js?max age 
x 


图 8-3 ”歌手 信息 分 析 


v 


Ə: (country: "Æi", singer id: 13948, singer mid: "eeifNHEf1sFEFN", singer name: "G.E.f. 


为 了 降低 开发 难度 ，Requests-HTML 提供 了 Ajax 加 载 功能 ， 加 载 后 的 网 页 信息 与 开发 者 工具 
的 Elements 选项 卡 的 网 页 信息 是 一 致 的 。 这 个 加 载 功 能 是 通过 调用 谷歌 的 Chromium 浏览 右 实 现 
HJ, Chromium 是 谷歌 为 发 展 Chrome 而 开启 的 计划 ， 它 可 以 理解 为 Chrome 的 工程 版 或 实验 版 ， 
新 功能 都 会 率先 在 Chromium 上 实现 ， 待 验证 后 才 会 应 用 在 Chrome 上 。 

Ajax 加 载 功能 由 render0 方 法 实现 ， 初 次 使 用 render(0) 方 法 会 自动 下 载 Chromium 浏览 器 ， 下 
载 Chromium 浏览 喜 必 须 保 证 当前 网 络 能 正 间 访问 谷歌 首页 ， 否 则 无 法 下 载 。 此 外 ， 还 可 以 直接 下 
载 Chromium 浏览 堪 ， 并 将 浏览 右 放 置 在 C 盘 的 用 户 文 件 光 ， 如 图 8-4 所 示 。 
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~ CN\Users\000\AppData\LocalN\pyppeteen\pyppeteen\local-chromium\57 5458| 


HER 修改 日 期 


L chrome-win32 2018/10/12 22:58 


图 8-4 fi Chromium 浏览 器 


在 图 8-4 上 的 文件 路 径 中 ， 只 有 “000” 是 变化 的 , 不 同 的 电脑 有 不 同 的 命名 ; 而 chrome-win32 
文件 夹 的 命名 也 是 固定 的 , 该 文件 夹 里 存放 了 Chromium 浏览 器 的 相关 文件 和 应 用 程序 。 如 果 是 通 
过 下 载 方式 束 无 需 手 动 配置 文件 路 径 , Requests-HIML 会 将 下 载 后 的 Chromium 33] 9i z& EJ 27) Bo B P) 
相应 的 文件 路 径 ， 如 图 8-5 所 示 。 


[W:pyppeteer. chromium downloader] start chromium download. 

Download may take a few minutes. 

100, | MB NBN | 133194757/133194757 [04:41<00:00, 472789. 53it/s] 
LW:pyppeteer. chromium, downloader] 


chromium download done. 


[W:pyppeteer. chromium, downloader] chromium extracted to: C:\Users\000\AppData\Local\pyppeteer‘\pyppeteer\local-chromium\575458 


图 8-5 Chromium 浏览 器 自动 配置 


完成 了 Chromium 浏览 器 配置 ， 可 以 编写 以 下 代码 来 实现 Requests-HTML 的 Ajax 加 载 功能 : 


from requests html import HTMLSession 
url = 'https-y/y.qu.com/portal/sTnger list.htm]l" 
session = HTMLSession() 
r — session.get (url) 
+EH Chromium 浏览 器 加 载 网 页 
FT .html .render() 
# 定 位 歌手 姓名 
singer — r himi Find( h: -singer list tille") 
# 输 出 歌手 姓名 
for 1 in singer: 
print (1.text) 


f£ PyCharm 里 运行 上 述 代 码 ， 可 以 看 到 程序 将 歌手 姓名 逐一 输出 。 虽 然 运行 速度 比 模拟 Ajax 
请 求 的 速度 较 慢 ， 但 可 以 大 大 降低 开 有 难度， 运行 结果 如 图 8-6 所 示 。 


G.E.M. [XA 
Ezi 
周杰伦 


zh shut 
FT H1 


半 阳 


A/h É 
ERS 
Fg 
黑龙 
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8.5 Jk «Xt 


Requests-HTML 是 在 Requests 的 基础 上 进一步 封装 ， 这 两 个 爬虫 库 都 是 由 同一 个 开 肥 者 开发 
的 。Requests-HIML 除了 包含 Requests 的 所 有 功能 之 外 , 还 新 增 了 数据 提取 和 Ajax 数据 动态 泻 染 。 

Requests-HTML 只 能 使 用 Requests 的 Session 模式 ,该 模式 是 将 请 求 会 话 实 现 持久 化 ， 可 使 这 
个 请 求 保持 连接 状态 。Session 模式 好 比 我 们 打 电 话 ， 只 要 双方 没有 挂 朵 电话 ， 就 会 一 直 保 持 一 种 
会 话 《〈 连 接 ) 状态 。 

数据 提取 是 由 lxml 和 PyQuery 模块 实现 , 这 两 个 模块 分 别 文 持 XPath Selectors 和 CSS Selectors 
定位 ， 通 过 XPath 或 CSS 定位 ， 可 以 精准 地 提取 网 页 里 的 数据 。 

Ajax 数据 动态 浑 染 是 将 网 页 的 动态 数据 加 载 到 网 页 上 再 抓 取 ， 它 是 由 Requests-HTML 的 
render( 方 法 实现 ， 通 过 调用 Chromium 33] WAKI Ajax 功能 ， 从 而 实现 网 页 信息 加 载 。 


网 页 操控 与 效 据 爬 取 


91 了 解 Selenium 


Selenium 是 一 个 用 于 网 站 应 用 程序 目 动 化 的 工具 。 它 可 以 直接 运行 在 浏览 磊 中 ， 就 像 真 正 的 
用 户 在 操作 一 样 。 它 支持 的 浏览 占 包 括 IE. Mozilla Firefox. Safari. Google Chrome 和 Opera 等 ， 
同时 支持 多 种 编程 语言 ， 如 .Net、Java、Python 和 Ruby 等 。 

Jason Huggins 在 2004 年 发 起 了 Selenium 项 目 , 这 个 项 目 主 要 是 为 了 不 想 让 自己 的 时 间 浪 费 在 
无 聊 的 重复 性 工作 中 。 当 时 测试 的 浏览 占 痢 支持 M 因此 Jason 和 他 所 在 的 团队 采用 
JavaScript 编写 一 种 测试 工具 来 验证 浏览 右 页 面 的 行为 。 这 个 JavaScript XE SL Selenium core, 
同时 也 是 selenium RC, Selenium IDE 的 核心 组 件 ，Selenium 由 此 诞生 。 关 于 Selenium 的 命名 比较 
有 意思 ， 当 时 QTP mercury 是 主流 的 商业 目 动 化 工具 ， 这 是 化 学 元 系 求 (俗称 水 银 ) rfj Selenium 
是 开源 目 动 化 工具 ， 是 化 学 元 素 硼 ， 古 可 以 对 抗 东 。 

从 Selenium 诞生 至 今 一 共 发 展 ]3 个 版 本 : Selenium 1.0. Selenium 2.0 和 Selenium 3.0。 每 个 
版 本 的 更 新 都 有 一 些 变化 ， 下 面 大 概 了 解 一 下 各 个 版 本 的 信息 。 

Selenium 1.0: 主要 由 Selenium IDE, Selenium Grid 和 Selenium RC 组 成 。Selenium IDE Æ EX 
ASI DR] V a8 H1 dí AFE PER 0| V3. i RE HE] oct] EAE: Selenium. Grid zé — P8 A 
动 化 的 辅助 工具 ， 通 过 利用 现 有 的 计算 机 基础 设施 ， 能 加 快 网 站 上 自动 化 操作 ; Selenium RC 是 
Selenium 家 族 的 核心 部 分 , 支持 多 种 不 同 开 发 语言 编写 的 目 动 化 脚本 ， 可 通过 Selenium RC 的 服务 
器 作为 代理 服务 器 去 访问 网 站 应 用 ， 从 而 达到 自动 化 目的 。 

Selenium 2.0: 在 1.0 版 本 的 基础 上 结合 了 Webdriver. Selenium 通过 Webdriver 直接 操控 网 站 
应 用 ， 解 决 了 Selenium 1.0 存在 的 缺点 。WebDriver 针对 各 个 浏览 器 而 开发 ， 取 代 了 网 站 应 用 的 
JavaScript。 目 前 大 部 分 上 自动 化 技术 都 是 以 Selenium 2.0 为 主 ， 这 也 是 本 章 主要 讲述 的 内 容 。 

Selenium 3.0: 这 个 版 本 做 了 不 大 不 小 的 更 新 。 如 果 是 使 用 Java 开发 只 能 在 Java 8 以 上 的 开发 
环境 ， 如 果 以 正 浏览 器 作为 自动 化 浏览 器 ， 浏 览 器 必须 在 正 9 版 本 或 以 上 。 

从 Selenium 的 各 个 版 本 信息 可 以 了 解 到 ， 它 必须 在 浏览 器 的 基础 上 才能 实现 自动 化 。 目 前 浏 
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完 右 的 种 类 繁多 ， 比 如 搜狗 浏 帘 占 、QEQ 浏览 器 和 百度 浏览 右 和 等， 这些 浏 帘 右 大 多 数 是 在 下 内 核 、 
Webkit 内 核 或 Gecko 内 核 的 基础 上 开发 而 成 的 。 为 了 统一 浏 贤 右 的 使 用 ，Selenium 主要 支持 IE. 
Mozilla Firefox, Safari, Google Chrome 和 Opera 等 国际 性 主流 浏览 右 。 

Selenium. 上 展 全 今 ， 不 仅 在 目 动 化 测试 和 上 自动 化 流程 开 友 的 领域 上 占据 独 重 要 的 位 置 ， 而 且 
在 网 络 爬 虫 上 也 广泛 被 使 用 。 


9.2 安装 Selenium 


由 于 Selenium 支持 多 种 浏览 器 ， 本 书 以 Google Chrome 作为 讲述 对 象 。 搭 建 Selenium HRH 
境 需 要 安装 Selenium 库 并 且 配 置 Google Chrome 的 WebDriver。 安 装 Selenium 库 可 以 使 用 pip 指令 
完成 ， 具 体 的 安装 指令 如 下 所 示 : 


pip install selenium 


Selenium 安装 完成 后 ， 我 们 在 CMD 环境 下 验证 Selenium 是 否 安 装 成 功 。 在 CMD 里 输入 
“python” 并 按 回 车 ， 就 会 进入 Python 的 交互 模式 。 在 交互 模式 下 依次 输入 以 下 代码 : 

>>> import selenium 

Pp» Bediomium. YwGrsroH ^ 

"Oo Dr. 

从 上 述 的 代码 的 可 以 , 在 Python 的 交互 模式 下 成 功 导 入 Selenium 库 , 并 且 当 前 Selenium Æ H 
版 本 信息 为 3.14.0。Selenium 的 安装 相对 较为 简单 ， 接 下 来 是 安装 Google Chrome 的 WebDriver. 
首先 打开 Google Chrome 并 查看 当前 的 版 本 信息 。 在 浏览 器 找到 “ 目 定 义 及 控制 Google Chrome" 
一 “帮助 (E)” 一 “关于 Google Chrome(G)” 按 钮 ， 如 图 9-1 所 示 。 


打开 新 的 标签 看 修 ) 

打开 新 的 窗口 (MN) 

打开 新 区 无 盖 窗 口 册 

历史 记录 [H) 

PET) 

PHB) 

HET 

FTEDIP)... 

SNC)... 

EHF)... 

更 多 工具 iL) 

Lid ST) EC) 粘贴 [P) 
RN I 设置 ($) 
ZF Google Chrome(G ENE) ; 
inm ars 
frere] ER)... 


图 9-1 浏览 器 版 本 得 看 方法 


除了 上 述 方法 之 外 ， 还 可 以 在 浏览 副 的 地 址 上 直接 输入 chrome:/settings/help 并 按 回 车 即 可 得 
看 浏览 器 的 版 本 信息 。 版 本 信息 如 图 9-2 所 示 。 
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X chrome 


© Google Chrome 


检查 更 新 时 出 错 : 无 法 启动 更 新 检查 (错误 代码 为 3: 0x80040154) , 
Ed 


获取 有 关 Chrome 的 帮助 


报告 问题 


图 9-2 浏览 器 版 本 信息 


从 图 9-2 中 可 以 得 知 ， 当 前 Google Chrome 的 版 本 为 68， 根 据 版 本 信息 找到 与 之 对 应 的 
WebDriver 版 本 ，Google Chrome 与 WebDriver 版 本 对 照 表 如 表 9-1 所 示 。 


表 9-1 


根据 浏览 器 的 版 本 号 与 对 照 表 可 以 知道 , chromedriver(WebDriver) 版 本 写 应 为 v2.40 或 v2.39. 
在 浏览 右上 访问 http://npm.taobao.org/mirrors/chromedriver/ 并 找到 v2.40 所 在 的 位 置 ， 进 入 v2.40 并 
单 击 chromedriver win32.zip 的 下 载 链 接 。 把 下 载 的 chromedriver win32.zip 进行 解压 ， 然 后 双击 运 
fT chromedriver.exe, ££ chromedriver 的 版 本 信息 ， 如 图 9-3 所 示 。 


Starting ChromeDriver 2. 40. 565498 (ea082db3280dd6843ebfb08a625e3eb905c4f5ab) on port 


Fhan gem | AREE "—m I m ie -— "— a — ] 
Only local connections are allowed. 


图 9-3  chromedriver 的 版 本 信息 


确认 chromedriver 的 版 本 信息 无 误 之 后 , 我 们 将 chromedriver.exe 直接 放置 在 Python 的 安装 目 
录 ， 比 如 本 书 的 Python 安装 目录 在 E\Python， 如 图 9-4 所 示 。 
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应 用 程序 工具 Python 
- ^ T 》 此 电脑 > {Rit (E) > Python w 0 EE Python" 


^ — SER 二 二 大 小 
看 快速 访问 T selenium MIFE 
mh i ? td 文件 夹 
s FER x J Tools 区 件 夹 
四 文档 * T| chromedriver.exe 应 用 程序 6,314 KB 
i 图片 r E LICENSEtxt 文本 文档 30 KB 
tm | 比 电脑 * 、 E] NEWS.txt 六 本 文档 595 KB 


29 个 项 目 选中 1 个 项 目 6.16 MB 


图 9-4 chromedriver.exe 存放 位 置 


完成 Selenium 库 的 安装 以 及 chromedriver 的 配置 后 ， 在 PyCharm 里 创建 一 个 test.py 文件 ， 编 
写 以 下 代码 来 验证 Selenium 是 否 能 目 动 司 动 并 控制 Google Chrome. RIUN F: 


# 导入 Selenium [f] webdriver 2$ 

from selenium import webdriver 

# 设置 变量 ur1， 用 于 浏览 器 访问 

url = 'https://www.baidu.com/' 

# 将 webdriver 类 实例 化 ， 将 浏览 器 设 定 为 Google Chrome 
# 参数 executable path 是 设置 chromedriver 的 路 径 
path-'E:NMMPythonNNchromedriver.exe' 

browser = webdriver.Chrome (executable path-path) 


# 打开 浏览 器 并 访问 百度 网 址 

browser.get (url) 

上 述 代 人 码 分 为 三 个 步 又: 导入 Selenium 库 的 webdriver 2$, webdriver 类 实例 化 并 指定 浏览 器 、 
打开 浏览 器 访问 网 址 。 如 果 chromedriver.exe 是 存放 在 Python 的 安装 日 录 中 ， 在 webdriver 类 实例 
化 的 时 候 ， 可 以 无 需 设 置 参数 executable path; 但 如 果 chromedriver.exe 是 存放 在 其 他 目录 ， 在 实 
例 化 的 时 候 要 设置 参数 executable path 来 指 问 chromedriver.exe 所 在 的 位 置 。 上 述 代码 运行 后 ， 程 
序 会 目 动 打开 一 个 新 的 Google Chrome， 如 图 9-5 所 示 。 


(C | T3 https 
Chrome iL eg Ut TES., 


ME)  haoií23 地 图 RA 贴吧 学 术 GT HE 


$5 
Baic 百度 


图 9-5 Selenium 控制 Google Chrome 


此 外 ，Selenium 还 可 以 控制 其 他 浏览 右 ， 在 执行 程序 之 前 ， 记 得 配置 浏览 右 的 WebDriver, HQ 
置 方法 与 配置 Google Chrome 的 大 同 小 异 。 首 先 通过 浏览 器 版 本 确认 WebDriver 的 版 本 , 然后 下 载 
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WebDriver 并 存放 在 Python 的 安装 目录 。 以 正和 Mozilla Firefox〈 火 狐 ) 为 例 ， 两 者 的 WebDriver 
配置 过 程 就 不 作 详 细 讲 述 ， 此 处 只 列 出 Selenium 的 具体 代码 ， 如 下 所 示 : 

# 启动 火狐 浏览 器 

from selenium import webdriver 


browser = webdriver.Firefox(ít) 
browser.get('http://www.baidu.com/') 


# 启动 IE 浏览 器 

from selenium import webdriver 
browser = webdriver.Ie() 
browser.get('http://www.baidu.com/') 
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Selenium 抓 取 网 页 信息 是 在 谷歌 开发 者 工具 的 Elements 选项 卡 里 ， 本 节 主 要 讲述 如 何 将 网 页 
元 到 告知 Selenium， 并 让 它 目 动 操控 网 页 及 读 取 数据 。Selenium 定位 网 页 元 素 主 要 授 过 元 素 的 属 
性 值 或 者 元 素 在 HTML 里 的 路 径 位 置 ， 定 位 方式 一 共有 8 种 ， 如 下 所 示 : 

# 通过 属性 ida name 来 实现 定位 

find element by id() 

find element by name () 


# 通过 HTML 标签 类 型 和 属性 class 实现 定位 
find element by class name |() 
find element by tag name() 


# 通过 标签 值 实现 定位 ，partial link 用 于 模糊 匹配 。 
find element by link text() 
find element by partial link text () 


POTUIT AE XE bre TE SR 

find element by xpath () 

Eind element Py css selecrparET 

我 们 将 8 种 定位 方式 分 为 4 组 ， 分 组 标准 以 每 种 定位 方式 的 优 缺 点 来 进行 划分 。 有 具体 的 说 明 
WF: 


(1) find element by id 和 find element by name 分 别 通过 元 对 属性 id M name 的 属性 值 来 定 
位 。 如 果 被 定位 的 元 又 不 存在 属性 id 或 name， 则 无 法 使 用 这 种 定位 方式 。 通 第 情况 下 ， 一 个 网 页 
H, JG ZR ÍT] 1d 或 name If] PE [E ze PE H, ul AR ET OR IP] id 或 name 相同 ， 这 种 定位 方式 只 能 定 
位 第 一 个 元 条。 

(2)find element by class name 和 find element by tag name DANEI AJETE class MICA 
标签 类 型 进行 定位 。 在 一 个 网 页 里 ， 属 性 class 的 属性 值 可 以 被 多 个 元 系 使 用 ， 同 一 个 元 系 标 签 也 
可 以 多 次 使 用 ， 正 因 如 此 ， 这 两 种 定位 方式 只 能 定位 符合 条 件 的 第 一 个 元 素 。 

(3) find element by link text 和 find element by partial link text 是 根据 标签 值 进行 定位 。 
EE Eds SE E RA A BH TES s 通过 网 页 的 文字 来 对 元 系 进 行 定 位 。 春 网 页 中 的 文字 并 不 是 唯一 的 ， 
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那么 Selenium 也 是 默认 定位 第 一 个 符合 条 件 的 元 系 。 

(4) find element by xpath 和 find element by css selector 是 由 xpath 和 css selector 实现 定 
位 ， 两 者 是 一 个 定位 选择 硕 ， 通过 标签 的 路 径 来 实现 定位 。 标 俭 的 路 径 是 指 当 前 标签 在 整个 HTML 
代码 里 的 代码 位 置 ， 比 如 <body> 里 的 第 二 个 <div> 标 签 ，<div> 又 骸 套 <p> 标 签 ， 那 么 <p> 的 路 径 为 
body 一 div[1] 一 p。 这 种 定位 方式 相对 前 面 的 定位 较为 精准 ， 因为 每 个 标签 的 路 径 都 是 唯一 的 。 


我 们 以 豆 汶 电 影 网 为 例 ， 有 具体 讲述 8 种 定位 方式 的 使 用 ， 代 人 码 如 下 : 


from selenium import webdriver 

url = 'https://movie.douban.com/' 

driver = webdriver.cChrome (t) 

driver.get (url) 

t 定位 

driver.find element by id('inp-query').send keys( "红海 行动 ' ) 
driver. find element by name | Search text').send keys(' 我 不 是 药 神 ， ) 


find element by id 和 find element by name 都 是 定位 网 页 的 搜索 框 ， 并 在 搜索 框 里 输入 文本 
信息 。 文 本 框 的 元 素 信息 如 图 9-6 所 示 。 


AHER 


电视 剧 排行 榜 ”分 类 AF 2016 


Elements Console Sources Network Perfomance Memory Application Security Audits 


"-div class-"inp 
«input id-"inp-query" name-"search text" size-"22" maxlength-"60" placeholder-" $9 £M, 
£2. ELE. m. SA" value autocomplete-"off"^ == $8 


图 9-6 搜索 框 元 素 信息 

class name = driver.find element by class name('nav-items').text 

tag name = driver.find element by tag name('div').text 

print('H class name 定位 : ', class name) 

print('Hitag name Æ: ', tag name) 

ERAR DANa EMAER. class name 是 定位 class 属性 值 为 nav-items 的 标签 ， 

tag name 是 定位 HTML 里 面 第 一 个 <div> 标 釜 ， 两 者 定位 元 对 后 ， 再 使 用 text 方法 来 获取 元 率 值 并 
和 输出。 元 素 信息 如 图 9-7 所 示 。 
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乐 同城 ”小 组 ME FM 


ias ë 电视 剧 HETS ë 分 类 


[ d] Elements pn: | : N rk Performance Memory Application 


html lang="zh-cmn-Hang" class-"ua-windows Ma-webkit 
> «head»..x/head 
"v «body? 
¿link href-"//img3.dbubanio.com/dae/ajfikounts/resources/0246c88/shire/bundle.css 
type-"text/css 
«div id-"db-global-nav" class-"globafg-nav ^.:/div^ 
bescript».«/script? 
link href-"//img3.doubanic.com/daefaccounts/resources/0246c88/movie/bundle.css 
type="text/css 
¥z¿div id-"db-nav-movie" class="nav 
b ¿div class-"nav-wrap"»..c/div 
v<div class-"nav-secondary": 
> <div class-"nav-items"»5..«/div^ 


图 9-7 class name 和 tag name 定位 元 素 


link text driver. find elemenl by Link rtextt' 排行 榜 ") . text 


partial text = driver.find elecment by partial tink text (IPER a text 


print('Hi link text 定位: ', link text) 

print('Hipartial link text 定位 ; ', partial text) 

上 述 代码 是 将 网 页 中 含有 “排行 榜 ” 和 “部 正在 热 映 ”的 内 容 进 行 定位 ，“ 排 行 榜 ” 在 网 页 
中 只 出 现 一 次 ，link_text 是 对 内 容 进 行 精准 定位 ， 比 如 网 页 中 出 现 “ 排 行 榜 ”和 “国语 排行 榜 ”， 
link text 只 能 定位 到 “排行 榜 ”。 而 “部 正在 热 映 ”是 网 页 内 容 “ 全 部 正在 热 映 >”” 的 部 分 内 容 ， 
partial link text 表示 可 以 进行 模糊 匹配 ， 所 以 Selenium 会 目 动 定位 “全 部 正在 热 映 、》” 这 个 元 又 。 


加 图 9-8 所 示 。 


SANSE BeF SAM 分 类 ”影评 


^ ™ 
由 partial link text Etu Blink text E 


EER SSE PS Es 


图 9-8 link text f partial link text 定位 元 素 


xpath = driver.find element by xpath('//* 
[üid-"db-nav-movie"]/dri:v[ll/div/div[l]/a').text 


BIR 网 页 操控 与 数据 把 取 | 69 


selector = driver.find element by css selector('4db-nav-movie 

> dirv.nav- wrap > div > div.nav-logo > a') .text 

print('H xpath 定位 : ', xpath) 

print({" 由 css selector ED: " , Selector) 

Ip|-Y- rn E rede Ss xpath 和 ess selector 部 是 定位 class 属性 值 为 nav-logo HJ«div- bi E H 
<a> 标 签 ， 然 后 再 获取 该 标签 的 值 并 输出 。xpath 和 cess selector 的 语法 编写 规则 各 不 相同 ， 一 般 情 
况 下 ， 在 Google Chrome 里 可 以 快速 获取 两 者 的 语法 。 首 先 在 Google Chrome 的 Elements 标签 页 
里 ， 找 到 茶 个 元 素 的 位 置 ， 然 后 右 击 选择 “Copy”， 最 后 选择 “Copy Xpath” 或 “Copy selector" 
即 可 获取 相应 的 语法 。 如 图 9-9 所 示 。 


Add attribute 
Fdit attribute 
Edit as HTML 


Delete element Ky 


T Fg ë um mz 


1 x " Copy element 
mansus BEER É Hide element MA 
"up FASIE CICITICTIL 
i Force state + 
P d] lements Cons Break on » Copy OuterHTML 


* Ll I E. i=- H 
bundle. §s" defer="defe Copy selector 


«link hilef-"//1mg3. dix Expand recursively 
bundle.c g" rel="stfle Collapse children | l 

edly id-Wib-nav-mowyie" 
xdivw clss- nav-Mrap 

LYidiv Wass-"náv-pr Focus 


kediv class-"nav-. m 


Scroll into view 


e 


Tediv class-"nav-search"» 


«form action-"https://movie.douban.com/subject search" method-"get"».. 


«Form? 
«div> 
c div» 
r 'di 
div? 
vidiv class-"nav-secondary"» 


html body  divdb-nav-movie.nav — div.nav-wrap — div.nav-primary — div.nav-logo 


oplication 


201730545 e 


Security Audits 


^| Styles Computed Event Listeners » 


Filter 'hov .cls t. = 


element. style f 


#db-naw-movie .nav-logo [ bund]e.css:217 

background: + 
url(//img3.doubanio.com/dae/accounts/res: 
no-repeat 8 12px; 

background-image: -webkit-image- 


set(url(//img3.doubanio.com/dae/account s 


j 


backgpound-— mage: —moz—Hiage— 
d I. F-or- 


TO [—- 


图 9-9 xpath 和 css selector 语法 获取 


ER 8 种 定位 方式 只 能 定位 的 第 一 个 元 素 ， 如 果 有 多 个 相同 的 元 素 ， 并 且 想 全 部 获取 ， 


使 用 以 下 定位 方式 : 


find elements by id() 

find elements by name () 

find elements by class name () 

find elements by tag name () 

find elements by link text () 

find elements by partial link text () 
find elements by xpath() 

frnd elements by c55 S5erTecbor() 


这 8 种 定位 方式 与 上 述 的 定位 方式 非常 相似 ， 两 者 的 唯一 不 同 就 是 elements 和 element. 


是 定位 全 部 符合 条 件 的 元 素 ， 后 者 只 是 获取 第 一 个 符合 条 件 的 元 素 。 
在 上 述 中 所 提 及 到 的 xpath 和 ess selector 的 语法 编写 ， 有 兴趣 的 读者 可 以 目 行 查阅 相关 的 资 


料 ， 进 一 步 了 解 两 者 的 语法 编写 规则 。 


可 以 


前 者 
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9.4 网 页 元 素 操 控 


操控 网 页 元 素 在 网 页 元 素 定位 后 才能 执行 ，Selenium 可 以 模拟 任何 操作 ， 比 如 单 击 、 右 击 、 
拖拉 、 深 动 、 复 制 粘贴 或 者 文本 输入 等 等 ， 操 作 方 式 可 分 为 三 大 类 : 第 规 操作 、 鼠 标 事件 操作 和 键 
i FERIE o 

常规 操作 包含 文本 清除 、 文 本 输入 、 单 击 元 素 、 提 交 表 单 、 获 取 元 素 值 等 。 以 QQ 音乐 注册 
为 例 Chttps://ssl.zc.qq.com/v3/index-chs.html?from-pt) ， 有 具体 的 使 用 方式 如 下 : 


from selenium import webdriver 

url = 'https:y//ssl.xc.qq-com/v3/indeox chs.hEmt ?£rom-pt' 
driver = webdriver.Chrome(t) 

driver.get (url) 

# 输入 名 字 和 密码 

driver.find element by id('nickname').send keys('pythonAuto') 
driver.find element by id('password').send keys('pythonAutol123') 
# 获取 手机 号 码 下 方 的 tips 内 容 

E:xpsvalüe — driver find element by xpath( 

'"ArcdivIi3] /div[2]/div[ii]/form/div|7]/div^).text 

print (tipsValue) 

E 勾 选 同时 开通 QQ 空间 

driver.find element by class name('checkbox').click() 

# 点击" 注册 “按钮 


drivcr.tind element by 1idi('get acc). submit) 


上 述 例 子 对 网 页 的 昵称 和 密码 的 文本 框 执行 文本 输入 、 获 取 手 机 号 码 下 方 的 tips 内 容 、 勾 选 
“同时 开通 QQ 衬 间 ”选项 和 单 击 “注册 ”按钮 ，4 种 操作 分 别 由 send keys. text. click 和 submit 
方法 实现 。 其 中 click 和 submit 在 某 些 情况 下 可 以 相互 使 用 ，submit 只 用 于 表单 的 提交 按钮 ;click 
是 强调 事件 的 独立 性 ， 可 用 于 任何 按钮 。 此 外 ， 我 们 还 列 出 一 些 实际 开发 中 常见 的 操作 方式 : 

# 清空 xX 标签 的 内 容 


driver.find element by id('X').clear() 

# 获取 元 素 在 网 页 中 的 坐标 位 置 ， 坐 标 格 式 : {'y': 19, 'x': 498] 

location = driver.find element by id('X').location 

# 获取 元 素 的 某 个 属性 值 ， 如 获取 X 标签 的 id 属性 值 

attribute = driver.find element by id('X') .get attribute('id"')} 

# 判断 X 元素 在 网 页 上 是 否 可 见 ， 返 回 值 为 True 或 False 

result = driver.find element by id('X').is displayed() 

# 判断 X 元 素 是 否 被 选 ， 通 和 常用 于 checkbox fl radio 标签 ， 返 回 值 为 True W False 
result = driver.find element by id('X').is selected() 

""" select 标签 的 选 值 "UU 

from selenium.webdriver.support.select import Select 

# 根据 下 拉 框 的 索引 来 选取 

Select (driver.find element by id('X')).seleoct by index('2"') 

# 根据 下 拉 框 的 value 属性 来 选取 

Select(driver.find element by id('X')).select by index('Python') 
# 根据 下 拉 框 的 值 来 选取 

Select (driver. find erement by 1d['xX'))-setect by vVisible texp['ByEhon) 


上 述 是 元 么 种 规 操作 方法 ， 接 独 讲 述 鼠 标 事件 操 作 方 法 ， 
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鼠标 事件 操作 由 Selenium. 的 


ActionChains 类 来 实现 。ActionChains 类 定义 了 多 种 鼠标 操作 方法 ， 具 体 的 操作 方法 说 明 如 表 9-1 


所 示 。 


表 9-1 


ActionChains 类 的 鼠标 操作 方法 


操作 方法 


执行 鼠标 事件 


reset actions 


context click 


double click 鼠标 双击 


drag and drop 


drag and drop by offset 


move by offset 


move to element 


取消 鼠标 事件 


click and hold 长 按照 标 左 键 


长 按 鼠 标 右键 


对 元 素 长 按 左 键 并 移动 到 为 
一 个 元 素 的 位 置 后 释放 鼠标 
左 键 

对 元 率 长 按 左 键 并 移动 到 指 
定 的 坐标 位 置 


对 元 又 长 按 刍 盘 中 的 条 个 按 
BE 


对 元 素 释 放 键 盘 中 的 某 个 按 
键 


对 当前 鼠标 所 在 位 置 进行 仿 


移 


将 鼠标 移动 到 某 个 元 素 所 在 
I BR 


click(element).perform() 

click 是 鼠标 单 击 事件 

perform 是 执行 这 个 单 击 事件 
click(element).reset actions() 

click 是 鼠标 单 击 事件 

reset actions 是 取消 单 击 事件 
click(element) 

element 是 某 个 元 素 对 象 

click and hold(element) 

element 是 某 个 元 素 对 象 

context click(element) 

element 是 某 个 元 素 对 象 

double click(element) 

element ÆA 4 76389] R 

drag and drop(element, element1) 
element 是 某 个 元 素 对 象 

elementl 是 目标 元 素 对 象 

drag and drop by offset(element, x, y) 
element 是 某 个 元 素 对 象 

X FE P EP I] x At 

y 是 偏 移 的 y 坐标 

key down(Keys.CONTROL,element) 
Keys.CONTROL Æ MĦ Keys 定义 的 键盘 
事件 

element 是 某 个 元 素 对 象 

key up(Keys.CONTROL,element) 
Keys.CONTROL Æ MĦ Keys 定义 的 键盘 
事件 

element 是 某 个 元 素 对 象 
move by offset(x, y) 

X x P EP H] x At 

y 是 偶 移 的 y 坐标 

move fto element(element) 


element 是 革 个 元 素 对 象 
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(HER) 
操作 方法 


move to element with o 将 鼠标 移动 到 某 个 元 素 并 偏 move to element with offset(element, x, 


ffset 移 一 定 的 位 道 y) 
element 是 某 个 元 素 对 象 
x JE Un Ee I1] x EER 
y zE NEP IT] y 坐标 
设置 暂停 执行 时 间 pause(1000) 
Telease 释放 鼠标 长 按 操作 release(element) 
element 是 某 个 元 素 对 象 
如 果 element HF, 对 当前 鼠标 的 位 置 长 
按 操作 进行 释放 
vilis 是 输入 的 内 容 
send keys to element 对 当前 元 素 执行 文本 输入 send keys to element(element, value) 
element 是 某 个 元 素 对 象 
value 是 输入 的 内 容 
上 表 讲 述 了 各 种 鼠标 事件 操作 ， 这 些 方法 都 是 在 ActionChains 类 所 定义 的 类 方法 ， 奎 想 使 用 
这 些 操作 方法 ， 必 须 将 ActionChains 类 实例 化 后 才能 调用 。 以 B 站 的 登录 页 面 为 例 ， 通 过 鼠标 操 


作 方 法 去 双击 网 页 中 的 “登录 ”标题 以 及 拖拉 验 PENA. ZI 


from selenium import webdriver 

from selenium.webdriver.common.action chains import ActionChains 
import time 

url = "https://passport bilrpirti.com/togin" 

driver = webdriver.Chrome() 

driver.get (url) 

# 双击 登录 

element = driver.find element by class name('tit') 

ActionChains (driver).double click(element).perform() 

# 设置 延 时 ， 否 则 会 导致 操作 过 快 

time.sleep(3) 

# EMRK 

element = driver.find element by class name('gt slider knob,gt show') 
ActionChains (driver).drag and drop by offset(element, 100, 0).perform() 


ERREP, Pas ActionChains 实例 化 ,实例 化 的 时 候 传 入 driver 对 象 。driver 是 chromedriver 
打开 的 浏览 右 对 象 ， 这 是 告诉 ActionChains 的 操作 浏览 右 对 象 是 driver。 实 例 化 之 后 就 可 以 直接 调 
用 鼠标 事件 操作 方法 ， bite element 对 象 ，element 是 网 页 中 某 个 标签 con 
调用 perform 方法 ， 这 是 一 个 执行 命令 ， 因 为 鼠标 操作 可 以 拖拉 、 长 按 鼠 标的 左 键 或 右键 ， zu 
个 持久 性 的 操作 ， 而 调用 perform 方法 可 以 让 这 个 鼠标 操作 马上 执行 。 
最 后 讲述 键盘 事件 操作 , 它 是 模拟 人 为 按 下 键盘 的 某 个 按键 , 主要 通过 send keys 方法 来 实现 。 
在 上 述 例 子 中 ，send keys 用 于 文本 内 容 的 输入 ， 而 本 例 是 通过 send keys 来 触发 键 稻 按钮 。 以 百 
度 搜 索 为 例 ， 利 用 键盘 的 快捷 键 实 现 搜索 内 容 的 变换 。 具 体 代码 如 下 所 示 : 


from selenium import webdriver 
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from selenium.webdriver.common.keys import Keys 
import time 


driver = webdrrver.chromet) 
driver.get("http://www.baidu.com") 


# 获取 输入 框 标签 对 象 

element = driver.find element by id('kw') 
# 输入 框 输入 内 容 

element.send keys ("Python ff") 
time.sleep(2) 


# 删除 最 后 的 一 个 文字 
element .send keys (Keys.BACK SPACE) 
time.sleep (2) 


+ 添加 输入 空格 键 + “教程” 
eilement .send keys thieves SPACE) 
element.send keys ("教程 ") 
time.sleep (2) 


# ctrl«a 全 选 输入 框 内 容 
element .send keys (Keys.CONTROL,  ) 
time.sleep(2) 


# ctrl+x 前 切 输 入 框 内 容 
element.send keys (Keys.CONTROL, '"x^) 
time.sleep (2) 


# ctrltv 粘贴 内 容 到 输入 框 
element.send keys (Keys.CONTROL, 'v') 
time.sleep (2) 


# FERREE PRIE 

driver.find element by 1d{'su!}.send keys (Keys. ENTER) 

运行 上 述 代 码 就 能 看 到 键盘 事件 操作 的 过 程 。 此 外 ，Keys 类 还 定义 了 键盘 上 各 个 快捷 键 ， 具 
体 的 定义 方式 可 以 查看 Keys 类 的 源码 ， 源 人 码 地 址 在 Python 安装 目录 的 
Lib\site-packages\selenium\webdriver\common\keys.py 下 。 


95 第 用 功能 


前 几 节 中 ， 我 们 已 经 学 习 了 Selenium 的 基本 使 用 方法 ， 擎 握 了 如 何 局 动 浏览 磺 、 坦 找 并 定位 
网 页 元 素 以 及 网 页 元 素 的 操控 。 本 节 中 ， 我 们 讲述 Selenium 的 一 些 常用 功能 ， 如 设置 浏览 器 的 参 
数 、 浏 览 器 多 窗口 切换 、 设 置 等 等 时 间 、 文 件 的 上 存 与 下 载 、Cookies 处 理 以 及 frame 框架 操作 。 

设置 浏览 占 的 参数 是 在 定义 driver 的 时 候 设 置 chrome options 参数 ， 该 参数 是 一 个 Options 类 
所 实例 化 的 对 象 。 其 中 常用 的 参数 是 设置 浏览 器 是 否 可 视 化 和 浏览 器 的 请 求 尖 等 信息 , 前 者 可 以 加 
快 代码 运行 速度 ， 后 者 可 以 有 效 地 防止 网 站 的 反扑 虫 检测 。 具 体 的 代码 如 下 : 
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from selenium import webdriver 

# 导入 Options 类 

from selenium.webdriver.chrome.options import Options 
url = 'https://movie.douban.com/' 

# Options 类 实例 化 

chrome options = Options () 

# 设置 浏览 器 参数 

# --headless 是 不 显示 浏览 器 启动 以 及 执行 过 程 

chrome options.add argument('--headless') 

# ix lang 和 User-Agent f& E, Bib Je dup a 

chrome options.add argument('lang-zh CN.UTF-8') 
UserAgent-'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 
(KHTML; like Gecko) Chrome/68.0.3440.84 Safari/537.36' 
chrome options.add argument('User-Agent-' + UserAgent) 
# 启动 浏览 器 并 设置 chrome options 参数 

driver = webdriver.Chrome (chrome options-chrome options) 
# 浏览 器 窗口 最 大 化 

i driver.maximize window() 

# 浏览 器 窗口 最 小 化 

i driver.minimize window() 

driver.get (url) 

# 获取 网 页 的 标题 内 容 

print (driver.title) 

# page source 是 获取 网 页 的 HTML 代码 

peint idriver.: page Source) 


A Vid L A OEE AA s P A ESA A. FTAA a ER, DI A 


顶部 可 以 不 断 添 加 新 的 窗口 ， 而 Selenium 可 以 通过 窗口 切换 来 获取 不 同 的 网 页 信息 。 具 体 代 人 码 如 


P: 


from selenium import webdriver 

import time 

url = 'https://www.baidu.com/' 

driver = webdriver.cChromet) 

driver.get (url) 

# 使 用 Javascript 开启 新 的 窗口 

Js = 'window.open ("https://www.sogou.com");' 
driver.execute script(]s) 

# 获取 当前 显示 的 窗口 信息 

current window = driver.current window handle 
# 获取 浏览 器 的 全 部 窗口 信息 

handles — driver window handles 

# 设置 延 时 可 以 看 到 切换 效果 

time.sleep(3) 

# 根据 窗口 信息 进行 窗口 切换 

# 切换 百度 搜索 的 窗口 
driver.switch to window (handles[0]) 
time.sleep(3) 

# 切换 搜狗 搜索 的 窗口 


driver.switch to window (handles[1]) 


上 述 代码 中 ， 使 用 了 execute script JYE, XERA aA] JavaScript 代码 生成 新 的 窗口 ， 


然后 获取 浏 帘 右 上 的 全 部 窗口 信息 ，window handles 方法 是 获取 当前 浏览 占 的 窗口 信息 ， 并 以 列 
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表 的 形式 表示 ， 最 后 由 switch to window 方法 进行 窗口 之 间 的 切换 。 千 万 不 要 小 看 execute. script 
方法 ， 很 多 浏 宛如 的 插件 部 是 由 JavaScript 来 实现 的 ， 可 想 而 知 它 的 作用 是 多 么 的 强大 。 

Selenium 的 执行 速度 相当 快 ， 在 Selenium 执行 的 过 程 中 往往 需要 等 竺 网 页 的 啊 应 才能 执行 下 
一 个 步骤 ， 人 否则 程序 会 抛 出 异 彰 信息 。 网 页 啊 的 应 快慢 取决 于 多 方面 因素 ,因此 在 茶 些 操作 之 间 需 
要 设置 一 个 等 竺 时间， 让 Selenium 与 网 页 吗 应 尽量 达到 同步 执行 ， 这 样 才 能 保证 程序 的 稳健 性 。 
在 前 面 的 例子 中 ， 延 时 是 使 用 Python A ELI] time 模块 来 实现 的 ， 而 Selenium 本 里 提供 了 一 些 延 时 
的 功能 ， 有 具体 的 使 用 方法 如 下 : 

from selenium import webdriver 

url = 'https://www.baidu.com/' 

driver = webdriver.Chrome() 

driver.get (url) 

E 隐 性 等 待 ， 最 长 等 待 时 间 为 30 秒 

driver.implicitly wait (30) 

driver.find element by id('kw').send keys('Python') 

# 显 性 等 待 

from selenium.webdriver.support.wait import WebDriverWait 

from selenium.webdriver.common.by import By 

from selenium.webdriver.support import expected conditions 

# visibility of element located WAH AEAN, 

# (By.ID, 'kw'): kw ÆR RIEN id 属性 值 ，By .ID 是 使 用 find element by id 定位 

condition = expected conditions.visibility of element located((By.ID, 'kw')) 

WebDriverWait(driver-driver, timeout-20, 
poll frequency-0.5).until (condition) 

ES PE SERE AE TE — 1 Vc x HJ EST [8] PERS UI Dod Ue UHR RM. NL Nel Du P MICE BIDUO. T 
签 栏 那个 小 圈 不 再 转 ， 才 会 执行 下 一 步 。 比 如 代码 中 设置 30 秒 等 竺 时间, 网 页 只 要 在 30 秒 内 完成 
的 周期 都 起 作用 ， 所 以 只 要 设置 一 次 即 可 。 

显 性 等 行 能 够 根据 判断 条 件 而 进行 灵活 地 等 待 ， 程 序 每 隔 一 段 时 间 检 测 一 次 ， 如 果 检 测 疆 
与 条 件 成 立 了 ， 则 执行 下 一 步 ， 人 否则 继续 等 待 ， 直 到 超过 设置 的 最 长 时 间 为 止 ， 然 后 抛 出 
TimeoutException Jt 弟 。 显 性 等 得 的 使 用 涉及 到 多 个 模块 : By. expected conditions 和 
WebDriverWait。 各 个 模块 说 明 如 下 。 

e By: 设置 元 素 定 位 方式 。 定 位 方式 共 8 种 ， 分 别 是 ID XPATH, LINK TEXT. 

PARTIAL LINK TEXT, NAME. TAG NAME, CLASS NAME, CSS SELECTOR, 
e expected conditions: 验证 网 页 元 素 是 否 存在 ， 提 供 了 多 种 验证 方式 。 具 体 可 以 查看 源码 : 
Lib'\slte-packages\selenlumvwebdrivervsupport\vexpected conditions.py 

WebDriverWait 的 参数 说 明 如 下 。 
driver: 浏览 器 对 龟 driver. 
timeout; 超时 时 间 ， 等 待 的 最 长 时 间 。 
poll frequency: 检测 时 间 的 间隔。 
ignored exceptions: 忽略 的 异常 ， 如 果 在 调用 until 或 until. not 的 过 程 中 抛 出 的 异常 在 这 个 
参数 里 ， 则 不 中 断代 码 ， 继 续 等 待 ， 如 果 抛 出 的 异常 在 这 个 参数 之 外 ， 则 中 断代 码 并 抛 出 
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异常 。 默 认 值 为 NoSuchElementException, 
e unti: 条 件 判 断 ， 参 数 必 须 为 expected conditions 对 象 。 如 果 网 页 里 某 个 元 素 与 条 件 符 合 ， 
则 中 断 等 待 并 执行 下 一 个 步骤 。 
e until not: 5 until 的 逻辑 相反 。 


区 性 等 竺 和 时 性 等 待 相 比 于 time.sleep 3Uftsi ti] SATER VERBI B6, OERA P P2 ER H 


问题 ， 隐 性 等 竺 和 显 性 等 街 可 以 同时 使 用 ,但 最 长 的 等 待 时间 取 雇 于 两 者 之 间 的 最 大 数 ， 如 上 述 代 
码 的 隐 性 等 待 时 间 为 30， 显 性 等 待 时 间 为 20， 则 该 代码 的 最 长 等 待 时 间 为 隐 性 等 待 时 间 。 


上 存 文件 在 网 页 中 用 上 存 按钮 来 显示 ， 通 过 单 击 按钮 承 会 打开 本 地 电脑 的 一 个 文件 对 话 框 ， 


在 文件 对 话 框 选 择 文件 并 确认 即 可 上 存 文件 路 径 。 而 Selenium 实现 过 程 相 对 简单 ， 只 需 定 位 到 网 
页 的 上 存 按 钮 并 使 用 send. keys 方法 来 写 入 文件 路 径 即 可 实现 ， 如 下 所 示 : 


# HTML 的 元 素 信息 

<div class="row Fluid" 

«div class-"span6 well"» 

«h3»upload file</h3> 

«input type-"file" name-"file" /» 

</div> 

</div> 

# Selenium 定位 

driver.find element by name iile- send keys("D:Xfaile.txr") 


在 网 页 中 ， 文 件 上 存 有 多 种 实现 方式 ， 但 无 论 哪 一 种 方式 ， 只 要 分 析 好 上 存 的 机 制 ， 都 可 以 


使 用 Selenium 实现 。 而 文件 下 载 的 原理 与 文件 上 存 是 一 样 的 ， 有 具体 代码 如 下 : 


from selenium import webdriver 

options = webdriver.ChromeOptions() 

prets = ['download.defautt directory": "'"d:XX"*I 
options.add experimental option('prefs', prefs) 
# 局 动 浏览 器 

driver = webdriver.Chrome t) 

# 下 载 微 信 PC 版 安装 包 
driver.get('https://pc.weixin.qq.com/') 

# 浏览 器 窗口 最 大 化 

driver.maximize window() 

# 单 击 下 载 按钮 


driver.tind elemenl by class name tt Dattoa CCRY) 


下 面 讲 述 浏览 器 Cookies 的 使 用 ，Cookies 操作 无 非 就 是 读 取 、 添 加 和 删除 Cookies. Cookies 


信息 可 以 在 浏览 旨 开 发 者 工具 的 Network ENAA, AAW IRUR 9-10 所 示 。 
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https://www.baidu.com 


Dal c» EBlz 


Hide data URLs All XHR J5 CSS Img Media Font lus [Ws 


Request Cookies 
BAIDUID 
BDORZ BAS0B5EBFGF3.. 
ewj1Vr5u3D] | I6 7x6TjHwwYfO 
ktMüdhd3püb.. 


1 / 63 requests | 50.3 ... 


图 9-10 查看 Cookies 信息 


从 图 9-10 中 可 以 看 到 ， 一 个 网 页 的 Cookies 可 以 有 多 条 Cookie 数据 组 成 ， 每 条 数据 都 有 9 个 
属性 。 而 我 们 需要 检测 Selenium 获取 Cookies 信息 与 图 上 的 数据 格式 是 否 一 致 ， 有 具体 代码 如 下 : 


from selenium import webdriver 

import time 

# 启动 浏览 器 

driver = webdriver.Chromel) 
driver.get('https://www.youdao.com') 
time.sleep(5) 

# 添加 Cookies 

driver.add cookie([['name': TLogin Useri, 'value': 'Pa3ssword'Ir) 
# 获取 全 部 Cookies 

all cookies = driver.get cookies () 

print ("Æ Cookies A: ', dlli cookicsi 

# 获取 name 7j Login User 的 Cookie 内 容 

one cookie = driver.get cookie('Login User') 
print ( "单个 的 cookie 为 : "one cookie) 

# 删除 name 为 Login User 的 Cookie 
driver.delete cookie('Login User') 
surplus cookies - driver.get cookies) 
print (剩余 的 Cookie X: ', surplus cookies) 
# 删除 全 部 Cookies 

driver- -delete ali cookrTes() 

surplus cookies = driver.get cookies () 
print (剩余 的 Cookie X: ', surplus cookies) 


运行 上 述 代 码 可 以 友 现 ,代码 输出 的 Cookies 信息 以 列表 的 形式 展示 ， 列 表 的 每 个 元 素 是 一 个 
字典 ， 并 且 字 典 键 值 都 与 图 上 的 Cookies 信息 一 一 对 应 。 

frame 是 一 个 框架 页 面 ， 在 HTMLS 已 经 不 支持 使 用 这 个 框架 ， 但 在 一 些 网 站 中 依然 会 看 到 它 
I] E S. frame 的 作用 是 在 HTML 代码 里 和 面 蒂 套 一 个 或 多 个 不 同 的 HTML 代码 , 每 通 套 一 个 HTML 
都 需要 由 frame 来 实现 。 以 为 百度 知道 的 问题 (https:/zhidao.baidu.com/list?cid=110106) 为 例 ， 打 
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开 某 条 题目 ， 题 目的 回答 数 最 好 是 0 回答 ， 如 图 9-11 所 示 。 


> 问题 分 类 百度 知道 x \ 


Q | à 安全 | https:;//zhidao.baidy.com/list?cid 


notepad&cgpython£zErpythonA-z&P3sbsk ^ SPap e (BsecmdE dins ^. python-F- f$ BT L2 fT 


图 9-11 百度 知道 问题 列表 


单 击 图 9-11 中 的 问题 链接 进入 问题 的 详细 信息 页， 并 且 打 开 开 发 者 工具 的 Elements 标签 页 ， 
快速 定位 到 文本 输入 框 ,在 Elements 标 签 册 可 以 看 到 这 个 文本 框 是 由 iframe 框 架 丰 面 生 成 的 。iframe 
和 frame 实现 的 功能 是 相同 的 , 只 不 过 使 用 方式 和 灵活 性 有 所 不 同 , 不 管 是 iframe 或 frame; Selenium 
的 定位 和 操作 方式 都 是 一 样 的 。iframe 框架 信息 如 图 9-12 所 示 。 


E python pygamejpki — x bo 
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bodyinargein :Bpx;font-Fanily:sans-serif;font-size:l6px;ýpinargein: 5px B8;]«/style*ilink rel="stylesheet" type='text/css" hrefe'/htnl/ 
ueditor/themes/lframe.css'/jX/henmd^body class-'view' xx/body»xscript type-'text/javascript' id-' initial5Script'»setTimeout(^unctiant) 

[editor = window.parent.UE.instants['ueditorInstantB'];editor. setup(document);],8];var  tmpscript = 

document.getElementById(' initialScript']; tmps5cript.parentMode,remaoveChild(. tmp5crint);4/scriptr4/html»");document,close();]1(0]1]^» == $8 beraer-top-wigtn: 


Fina 
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wüt-ask — Sanewer-editor  *eduil d vzeduil iframehnlder.edui-editer-iframehe der enui-Inew — iframesueditor n 


图 9-12 百度 知道 问题 详细 页 


由 于 一 个 HTML 可 以 租 套 了 一 个 或 多 个 iframe, 那么 Selenium 在 操作 不 同 的 iframe 需要 通过 
switch to.frame() 来 切换 到 指定 的 iffame， 再 执行 相应 的 操作 。 比 如 一 个 网 页 中 有 多 个 iframe, 4A 
iframe 的 信息 如 图 9-13 所 示 。 
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[same] 医 人 iene] 


图 9-13 iframe 信息 


图 9-13 中 一 共有 3 个 iframe, Æ SRNR ERE T 2 个 ifame， 其 中 第 一 个 iframe H rf X. Ex 
套 了 一 个 这 ame， 不 管 是 HTML 切换 iframe, X5; iframe 之 间 的 切换 ， 实 现 过 程 都 是 由 switch to 
方法 来 完成 。Selenium 对 各 个 1frame 的 定位 方法 如 下 所 示 : 


from selenium import webdriver 
url = "XXXXX" 

driver = webdrrver.chromet) 
driver.get (url) 


unc MNSDS qtrume "x 

# 通过 索引 定位 

driver.switch to.frame (0) 

# 通过 iframe 的 id 或 name 属性 定位 

driver.switch Lto.rrame(' iframe an) 

t EEM iframe 再 切换 到 iframe a 

element = driver.find element by id("iframe a") 
driver.switch to.frame (element) 

# M iframe a Bp HTML 

driver.switch to.default content () 


"nn 定位 到 第 二 个 iframe """ 

# 通过 索引 定位 

driver.sSwitch to.rrametl) 

# 通过 iframe HJ id E name 属性 定位 

driver switch Eo.framet'rrrame b*) 

i 先 定 位 iframe 再 切换 到 iframe b 

element = driver.find element by id("iframe b") 
driver.switch to.frame (element) 

# 从 iframe b 跳 回 HTML 

drrver switch to.default contenti) 


nmn 定位 到 第 三 个 iframe nna 
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+ 定位 到 iframe a 

driwver.switch Eo.ftramet'rframe a'y 
i 再 从 iframe a U]f& iframe d 
driver-switch Eg.tramei'rframe d') 
# Miframe d 跳 回 到 iframe a 
driver.switch to.parent frame() 

# A iframe d 跳 回 HTML 

drrver.swibch Ego.default Content td 
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本 下 通过 使 用 Selenium 来 实现 自 度 知道 目 动 答题 ， 在 讲述 之 前 ， 首 先 注 册 一 个 自 度 账号 ， 在 
Duas L1]7f https://passport.baidu.com/vV2/， 使 用 手机 号 人 码 即 可 和 完成 注册 ， 具 体 的 注册 过 程 不 再 详 
细 讲 述 。 

完成 用 户 注册 后 ， 在 浏 斋 右上 访问 https:Wzhidao.baidu.conylist?cid=110， 访 网 页 是 显示 某 个 分 
类 的 问题 列表 ， 每 条 问题 代表 一 条 链接 ， 单 击 链接 可 以 进入 问题 详情 页 。 

在 问题 详情 页 里 面 ， 我 们 需要 根据 题目 去 搜索 相关 的 答案 ， 然 后 将 谷 案 与 到 问题 详情 页 的 回 
t X. ZEE ER, 最 后 单 击 提交 回答 按钮 即 可 实现 答题 .这 个 看 似 商 单 的 功能 却 涉及 到 三 个 网 页 的 操控 。 
首先 获取 问题 详情 页 的 题目 ， 然 后 根据 题目 搜索 答案 ， 在 答案 列表 页 中 逐一 访问 每 个 答案 的 链接 ， 
在 答案 详情 页 中 获取 合理 的 答案 ， 最 后 将 答案 写 回 到 问题 详情 页 中 。 整 个 过 程 如 图 9-14 所 示 。 


党 python pygame 问 题 E x 党 CEHE python p. x 划 为 什么 我 的 pylhon 里 运 和 x 
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Essi Alig | python pygame 问 题 


pythoní'Ipygamej»&8. FEHR. fri 
M: — nílpygame?j238. pirig. 
e 我 看 十 上 是 可 以 的 我 直 按 写 一 个 .py 文件 dre tr Fiet EAMUS HET EE Q 
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4 fen ython Hiir Ar pygame kp manng es irali te ip : = 
DG TIS E 算 这 是 没 问题 的 ， 你 按照 这 方法 去 查 一 下 : 
Mz 我 这 是 没 同 是 的 ， 信 按照 总 方法 去 二 一 下 JERGPYTHON-SITEROOTLIiDsite- 
l : 3 PYTHON-SITEROOT Epython 内 安装 日 长 7 看 F [有 设 有 除 init er XE] PYTHON-SITEROOT\Lib\site-package 
寻找 一 个 吊 base.pyd 的 文件 。 国 为 。 克 在 做 impot dygamet(r)... | - ih : v. 
113 回答 者 : xujle128 3 个 回答 £4 Python 的 安装 目录 ) ETERRA init p 
性 ， 因 为 ， 你 在 做 了 import pygame 的 时 候 其 


图 9-14 根据 题目 搜索 答案 
根据 上 述 的 简单 分 析 ， 整 个 实战 项 目 可 以 分 为 5 个 步 又 来 实现 ， 每 个 步 又 具体 说 明 如 下 : 


(1) 在 https://zhidao.baidu.conylist?cid=110 上 获取 问题 列表 ， 得 到 全 部 问题 的 地 址 链接 ， 然 
后 过 有 历 访 问 这 些 链接 ， 依 次 进入 问题 的 详情 页 。 

(20 在 问题 详情 页 获取 问题 题目 ， 题 有 目 是 用 于 搜索 相关 的 答案 。 

(3) 搜索 答案 的 地 址 链接 都 是 固定 的 ， 如 图 9-14 上 所 示 ， 只 要 替换 地 址 中 word 后 面 的 内 容 
即 可 搜索 相关 的 谷 案 。 

(40 得 到 搜索 结果 后 ， 获 取 答 案 列表 的 地 址 并 过 有 历 访问 即 可 进入 答案 详情 页 ， 如 条 答案 详情 
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页 里 面 有 最 佳 管 案 束 会 获取 管 案 内 容 ， 并 且 终 止 答 案 列 表 的 授 历 。 
(5) 将 得 到 的 答案 写 回 到 问题 详情 页 的 回答 文本 框 并 单 击 提交 回答 按钮 即 可 完成 答题 。 
整个 项 目 在 实现 过 程 中 是 在 用 户 已 登录 的 情况 下 执行 ， 如 果 使 用 百度 的 账号 密码 去 执行 用 户 
登录 ， 承 会 过 到 手机 验证 码 或 图 片 验证 码 。 用 户 登 录 后 ， 网 站 会 一 直 保 持 用 户 的 登录 状态 ， 不 管用 
己 是 否 重 局 浏览 事 ， 只 要 访问 百度 网 址 ， 用 户 登 录 信息 就 会 显示 出 来 。 利 用 用 户 登 录 的 状态 ， 
Selenium 可 以 模拟 用 户 登 录 并 将 用 户 登 录 后 的 Cookies RE FR, E FREKK, HHG 
操控 Cookies 即 可 完成 用 户 登 录 。 功 能 代码 如 下 : 


from selenium import webdriver 
import json, time 
# 百度 用 户 登 录 并 保存 登录 Cookies 
driver = webdriver.Chrome(t) 
driver.get ("https://www.baidu.com/") 
driver.find element by xpath ('"//*[@id="ul1"]/a[7]").click() 
time.sleep(3) 
driver.find element by id('TANGRAM PSP 10 footerULoginBtn').click() 
time.sleep(3) 
# 设置 用 户 的 账号 和 密码 
driver.find element by xpath('//*[8i1d-"TANGRAM PSP 10 userName"]'). 
send kevs( xXx") 
driver.find element by xpath('//*[Bid-"TANGRAM PSP 10  password"|"). 
send kevs( XX ") 
Ery: 
verifyCode = driver.find element by name('verifyCode') 
code number = input(' 请 输入 图 片 验证 码 : ') 
verifyCode.send keys(str(code number)) 
GXCCDL: pass 
drrver.find element by xpath('//*[Bid-"TANGRAM PSP 10 submit"]')}.click() 
time.sleep(3) 
Ery: 
driver.find element by xpath('//*[8id-"TANGRAM 36 button send mobile" 
I'3-clackt) 
code photo = input(' 请 输入 短信 验证 码 : ') 
driver .Find clement by xpath('//*[B83d "TANGRAM 36 input vcode"[*). 
send keys (str (code photo)) 
driver.find element by xpath('//*[8i1d-"TANGRAM 36 button submit"]' 
|-cliTckr) 
time.sleep(3) 
CXCOCHUT pass 
cookies = driver.get cookies () 
fi = open('cookieo.Lxt', 'w') 
fl.write(json.dumps (cook1es)) 
[1.:closet) 


ERRE Y POUR i die. XH T E Er SSuERGA fav uERdIETSETE. P AE 
JAER ERER F AREIK S IR] zz ATE Vr Bi. US od 3B ADS] ZR «REA BR EZ IRE RU B Y h) EE 
时 ， 这 是 为 了 让 程序 与 网 页 之 间 能 够 同步 协调 。 最 后 完成 整个 登录 操作 后 ， 将 网 页 的 Cookies 信息 
保存 到 txt 文件 中 。 

得 到 用 户 的 登录 信息 ， 接 下 来 实现 目 动 答题 。 整 个 答题 过 程 一 共 涉 及 4 个 网 页 : 百度 知道 问 
DIRK, AERE HAEE BRERA ERTE 
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在 问题 列表 页 中 ， 每 条 问题 的 HIML 代码 是 由 标签 <a> 生 成 ， 并 且 属 性 clas 的 属性 值 为 
title-link， 如 图 9-15 所 示 。 因 此 Selenium 可 以 对 属性 class 进行 定位 ， 获 取 全 部 问题 所 在 的 标签 
<a>， 遍 历 这 些 标签 提 取 相 应 的 链接 地 址 。 


Elements Console Sources Network Performance Memory Application Security Audits 


¥<ul class="question-list-ul"> 
Y"«li class="question-list-item” data-qid="438344135881754364" data-cid- 1249" data-isfresh data-isthreepoints» 
vdiv class-"question-title-section" ^ 
*z«div class-"question-title"* 一 一 
«a href-"http: //zhidao.baidu.com/question/a38344135881754364.htm] ?fr-glquick&is force answer=8" class- title-link" target-" blankK > 
NBA 这 三 十 年 发 生 了 什么 ，Python 告 诉 你 
TEF 


图 9-15 ”问题 列表 页 


在 新 的 窗口 访问 每 条 问题 链接 ， 这 些 链接 会 进入 相应 的 问题 详情 页 。 在 问题 详情 页 中 ， 首 先 
判 断 问题 是 否 已 被 抢 谷 ， 如 果 疝 未 被 回答 ,程序 根据 题目 去 白 度 知道 搜索 相关 的 答案 ,在 这 些 相关 
答案 中 找到 最 佳 谷 案 ， 然 后 写 入 问题 答案 输入 杠 里 并 单 击 “ 提 区 回答 ”按钮 ， 如果 问题 已 被 回答 ， 
程序 就 关闭 当前 窗口 ， 回 到 问题 列表 执行 下 一 个 问题 。 问 题 详 情 页 的 答案 输入 框 和 “提交 回答 ” 按 
钮 的 HTML 代码 如 图 9-16 所 示 。 


Elements Console SUCES Metwork Performance Memory Application Security Audits 


¥<iframe id-"ueditor e" width="186%" height-"100%" frameborder-"&" src=" javascript:voyhi(function()[document . opg 


«html xmlnss'http://www.w3.org/1929/xhtml' class="wiew" »«head»«style types'text/css'f.viewlpadding:e;word-wrap 
bodyimargin:8px;font-family:sans-serif;font-size:16px;]p[margin:5px 6;]«/style»«linkjrel-'stylesheet' iyne tell 
iframe.css'/»«/head»«body class-'view' »«/body*zscript type-'text/javascript' id-'finitialscript '»setTimeout( 
window.parent.UE.instants['ueditorInstante'];editor. setup(document);t,8);var tmpycript = document.getElement[ 
 tmpscript.parentNode.nremovechild( tmpscript);«/script»«/html»");document.close()7]())"» 


k zdocument 


zf/ iframe» 

«div» 

k«div id-"eduil bottombar" class-"edui-editor-bottomcontainer edui-iknow"» «/div» 
«div id-"eduil scalelayer" class- edui-iknow"»«/div» 

z/div» 

"div class-" addons 1Ine > 

¿div class-"ik-authcode-outer" style="display: none: »«/div- 
4a class-"btn-32-green grid-r new-editor-deliver-btn' > jtt E«./a» -- $8 


图 9-16 问题 详情 页 


回答 问题 的 过 程 中 涉及 到 两 个 新 的 网 页 : 答案 搜索 页 和 答案 详情 页 。 答 案 搜 索 页 是 根据 问题 
在 新 的 窗口 中 搜索 相关 答案 , BETA IET] BERE Up dt^ Xn» 该 标签 下 含有 标 窒 <a>。 将 Selenium 
定位 到 每 个 答案 的 标签 <a>， 再 获取 href 属性 值 ， 该 属性 值 用 于 进入 答案 详情 页 ， 如 图 9-17 所 示 。 

将 答案 详情 页 的 链接 在 新 的 窗口 里 访问 ， 每 个 答案 详情 页 都 不 一 定 有 最 佳 答 案 ， 根 据 分 析 可 
知 ， 最 佳 答案 的 class 属性 值 为 best-text mb-10， 如 果 Selenium 能 对 属性 class 进行 定位 ， 则 说 明 当 
前 答案 详情 页 有 最 佳 答案 ， 反 之 则 无 ， 如 图 9-18 所 示 。 
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à https:;//zhidao.baidu.com/search?ct- 17&pn- 0&tn-ikaslist&rnz 10&fr- wwwt&word-NBAix 2 FRET (1-4 962CPythontiirtr 


MIN, Eae. E Re RERS. 名气 支 的 应 该 就 这 几 亿 了 
LT T 1 mag i L 
m0 EI 3TH 网 3 
Sources Metwork Performance Memory Application Security Audits 
E id €— data-log-area-"list"» 
: 'pos:dt»a,type:normal" data-rank- 3:71580489784806426685 
| ¿dt class-"dt rtu 4 line" alog-alias- result- title-8": 


«a href= SEM RM. NA 


Pis Lio E AB TAA COS FAX 
id ian E ti" ES 
:after 


fts 


图 9-17 答案 搜索 页 


[3 评论 


Elements — Console Sources Metwork Perforance Memory Application Security — Audits 


«script type-"text/javascript"».«/script 
"div class-"wgt-best 
ugt-reccamnend 

' id-"hest-answer-2907848151": 


kzdiv class-"hd line "».z/div» 
kcdiv id-"wgt-replyer-all-2907848151" class wg -replyer-all"5.«/div 
T"idiv class-"bd answer" id-"answer-2907848151" | 

ls cs class E info f-ald"» «/div 


5s-"best-text mb-18" 


图 9-18 答案 详情 页 


根据 上 述 的 元 素 定位 以 及 答题 的 业务 逻辑 ， 整 个 答题 程序 需要 注意 每 个 页 面 窗口 之 间 的 切换 ， 
如 果 窗 口 的 切换 逻辑 不 严谨 , 很 容易 导致 程 序 出 错 。 此 外 还 需要 考虑 一 些 异 常 的 情况 出 现 ， 比 如 问 
题 搜 不 到 任何 答案 、 问 题 已 被 回答 以 及 网 络 延 时 响应 等 一 些 特殊 情况 。 综 合 分 析 ， 自动 答题 的 功能 
代码 如 下 所 示 : 


from selenium import webdriver 
import json, time 
url = 'https://zhidao.baidu.com/list?cid=110' 
driver = webdriver.Chrome () 
driver.get (url) 
# 使 用 Cookies €x 
driver.delete all cookies() 
fl = open('cookie.Ltxt"') 
cookie -json.loads(fl.read()) 
[l:closet) 
for c in cookie: 

driver.add cookie (c) 
driver.refresh() 


# 获取 问题 列表 


title link OVER OOeRL SYS tille ink 


84 | 实战 Python WEE 


för 1 in Litle Llink: 
# 打开 问题 详细 页 并 切换 窗口 
driver.switch to.window(driver.window handles[0]) 
Hrer r gët atiribute( hrer) 
driver.execute script('window.open("$5"):;' $$ (href)) 
time.sleep (5) 
driver.switch to.window(driver.window handles[1]) 
try: 
# 查找 iframe， 判 断 问题 是 否 已 被 回答 
driver.find element by id('ueditor 0') 


E 获取 问题 题目 并 搜索 答案 


title = driver.find element by class name('ask-title. ').text 
title url = "*"https://zhidao.baidu.com/search?&word-' + title 
Js = *'wandow.open[i"s55");' $$ (title url) 


driver.execute script(]s) 
time.sleep(5) 
driver.switch to.window(driver.window handles[2]) 
# 获取 答案 列表 
answer list = driver.find elements by class name ('dt,mb-4,line') 
tor k in answer lisl: 
# 打开 答案 详细 页 
href = k.find element by tag name('a').get attribute('href') 
driver.execute script('window.open("$s");' $ (href)) 
time.sleep(5) 
driver.switch to.window(driver.window handles[3]) 


# 获取 最 佳 答 案 
try: 
text = driver.find element by class name(' 
best-text,mb-10'). text 
Encep: 
prx = i 
finally: 


# 关闭 答案 详情 页 的 窗口 
driver.close(i) 

# 答案 不 为 空 

it Lexi: 
# 关闭 答案 列表 页 的 窗口 
driver.switch to.window(driver.window handles[2]) 
driver.closet) 
# 将 答案 写 在 问题 回答 文本 框 上 并 单 击 提交 答案 按钮 
driver.switch to.window(driver.window handles[1]) 
driver.switchH to.rramet'uedrtor 0') 
driver. ind element by xpath('/html/body'Y.cli:ck() 
driver.find element by xpath('/html/body').send keys (text) 
# E ed ped HH] HTML 
driver.switch to.default content(t) 
E 单 击 提交 回答 按钮 
driver.find element by xpath('//*[8i1d-"answer-editor"]/ 

diviz|/a').clrckt) 

time.sleep(5) 
# 关闭 问题 详细 页 的 窗口 
driver.switch to.window(driver.window handles[1]) 
driver.closet) 
break 
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except Exception as err: 
# 除了 问题 列表 页 ， 关 闭 其 他 窗口 
all handles = driver.window handles 
for X, v In enumerdEe(art handles}: 
ariei 

driver.switch to.window (v) 

driver.close(t) 
driver.switch to.window(driver.window handles[0]) 
print (err) 

上 述 代 码 多 次 使 用 了 try…except 异 当 机制， 这 是 为 处 理 一 些 特殊 情况 ， 在 一 定 程度 上 保证 了 
程序 的 稳健 性 。 程 序 中 涉及 到 4 个 网 页 都 是 使 用 JavaScript 去 打开 新 的 窗口 ， 使 用 JavaScript 也 是 
为 了 提高 程序 的 稳健 性 ， 因 为 Selenium 的 click0O 方 法 没有 JavaScript 稳定 ， 读 者 不 妨 将 JavaScript 
的 代码 改 用 click0 方 法 去 实现 ， 测 试 程序 的 稳定 性 ， 束 会 发 现 效果 不 同 。 
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Selenium 是 一 个 用 于 网 站 应 用 程序 目 动 化 的 工具 ， 它 可 以 直接 运行 在 浏览 右 中 ， 束 像 真 正 的 
用 户 在 操作 一 样 。 它 文 持 的 浏览 器 包括 IE. Mozilla Firefox. Safari. Google Chrome 和 Opera 等 ， 
同时 文 持 多 种 编程 语言 ， 如 .Net、Java、Python 和 Ruby 等 。 

搭建 Selenium 开发 环境 需要 安装 Selenium 库 并 且 配 置 Google Chrome 的 WebDriver。 安 装 
Selenium 库 可 以 使 用 pip 指令 完成 : 配置 Google Chrome 的 WebDriver H cB SE 301] và, a hb V 
WebDriver 的 版 本 ， 然 后 下 载 相应 的 WebDriver 并 存放 在 Python 的 安装 目录 。 

Selenium 定位 网 页 元 系 主要 通过 元 系 的 属性 值 或 者 元 条 在 HTML. 里 的 路 径 位 置 ， 定 位 方式 有 
以 下 8 种 : 

# 通过 属性 id 和 name 来 实现 定位 


find element by id() 
find element by name() 


# 通过 HTML 标签 类 型 和 属性 class 实现 定位 
find element by class name |() 
find element by tag name() 


# 通过 标签 值 实现 定位 ，partial link 用 于 模糊 匹配 。 
find element by link text () 
find element by partial link text () 


# 元 率 的 路 径 定位 选择 器 

find element by xpath () 

tind element by css selebbart) 

Selenium 可 以 模拟 任何 操作 ， 比 如 单 击 、 右 击 、 拖 拉 、 滚 动 、 复 制 粘 贴 或 者 文本 输入 等 。 操 
作 方 式 分 为 三 大 类 : 常规 操作 、 鼠 标 事 件 操作 和 键盘 事件 操作 。 

Selenium 还 有 一 些 音 用 功能 ， 如 设置 浏览 右 的 参数 、 浏 览 句 多 窗口 切换 、 设 置 等 待 时 间 、 文 
件 的 上 存 与 下 载 、Cookies 处 理 以 及 frame 框架 操作 。 
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10.1 Appium 简介 及 原理 


Appium 是 一 个 开源 、 跨 平台 的 测试 框架 ， 可 以 用 来 测试 原生 及 混合 的 移动 端详 用 。Appium 
支持 iOS, Android 及 FirefoxOS 平台 ， 它 使 用 WebDriver 的 JSON Wire 协议 来 驱动 10S. 系统 的 
UlAutomation 库 以 及 Android 系统 的 ULAutomator 框架 。 它 允许 日 动 化 人 员 在 不 同 的 平台 GOS 和 
Android) 使 用 同一 套 API 来 写 目 动 化 脚本 ， 这 样 大 大 增加 了 10S 和 Android 的 代码 复 用 性 。 

整个 Appium 分 为 Client 和 Server 两 部 分 : Client 封装 了 Selenium P Xs Ee, 为 用 户 提 供 所 
A iW Selenium 命令 以 及 额外 的 移动 设备 控制 相关 的 命令 ， 如 多 点 触 控 手势 和 屏 和 时 组 回 等 ; 
Server 定义 了 官方 协议 的 扩展 ， 为 用户 提供 了 方便 的 接口 来 执行 各 种 设备 的 行为 ,例如 在 测试 过 程 
rp ZH LBS App 等 。 

Appium 文 持 多 种 编程 语言 开发 日 动 化 程序 ， 这 取决 于 它 选择 了 Client/Server 的 设计 模式 。 
Client 通过 及 送 HTTP 请 求 给 Server， 当 Server 接收 到 Client 发 送 的 请 求 ， 解 析 请 求 内 容 并 调用 对 
应 的 系统 框架 ， 在 移动 设备 上 执行 目 动 化 操作 。 因 为 Client 和 Server 之 间 是 采用 HTTP 协议 ， 所 
以 Client 用 什么 语言 来 开发 目 动 化 程序 都 是 可 以 的 。Appium 的 工作 原理 如 图 10-1 所 示 。 


Appium-client 


Python-client | 


Ruby-cli 


图 10-1 Appium 工作 原理 
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从 Appium 的 原理 图 可 以 看 到 ，Appium-Client 能 为 我 们 提供 自动 化 功能 模块 ， 用 于 编写 自动 
化 程序 。 在 Python 中 ， 它 是 第 三 方 模块 Appium; 该 模块 是 在 Selenum 库 的 基础 上 进行 封装 。 
Appium-Server 是 基于 Node.JS 开 上 的 服务 站 ， 主 要 接收 Appium-Client 的 请 求 , 根据 请 求 信 息 去 操 
作 移 动 设 备 ， 从 而 实现 目 动 化 操作 。 


10.2” 挫 建 开 发 环境 


Appium x ff Android 和 10S 系统 的 移动 设备 目 动 化 开发 ， 但 是 苹果 设备 的 目 动 化 程序 必须 在 
Mac 下 进行 开发 ，Windows 和 Linux 平台 是 无 法 完成 的 ， 因 此 我 们 以 Android 系统 为 例 。 

在 Windows 系统 上 搭建 Appium 开发 环境 ， 需 要 安装 JavaJDK. Android SDK、Node.JS、 
Appium-Server 和 Appium-Client， 有 具体 的 安装 说 明 如 下 : 


步骤 01 4 Java JDK: 搭建 Java 的 开发 环境 。 

步骤 02 Á Android SDK: Android 软件 开发 包 ， 基 于 Java 的 开发 环境 运行 ， 可 以 在 计算 机 局 
用 Android 模拟 强 或 者 连接 Android 于 机 。 

步骤 03 4 NodeJS: 搭建 Node.JS 的 开发 环境 。 

步骤 04 Á Appium-Server: %3 Appium HJBRSs&, Æ F Node.JS 的 开发 环境 运行 。 


+ = 


步骤 09 Á Appium-Client: c Appium 的 客户 新 ， 编 写 并 运行 Appium 上 自动 化 代码 。 


Java JDK 是 在 Windows 上 搭建 Java 的 开发 环境 ， 因 为 Android SDK 是 基于 Java 的 开发 环境 
运行 的 。 目 前 Java 最 新 版 本 是 10.0, 但 Android SDK 仅 文 持 Java 8 版 本 , 因此 我 们 需要 安装 Java 8 
版 本 ， 在 浏览 右 中 访问 http:/www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads- 
2133151.html， 下 载 与 计算 机 系统 匹配 的 安装 包 ， 如 图 10-2 所 示 。 


e 口 


[m] lava SE Development X 


Q | 全 不 安全 | www.oracle.com/technetwork/Java/jJavase/downloads/jdk8-downloads-2133151.html * 


— 


ah. 
* Developer Train 


Java SE Development Kit 8u181 


You must accept the Oracle Binary Code License Agreement ror Java SE to download this 
software. 


Accept License Agreement 

Product! File Description File &ize Download 
Linux ARM 32 Hard Float ABI 72.05 MB Mjd«-3u181-linux-arm32-vfp-hrlt tar. gz 
Linux ARM 64 Hard Flaat ABI 69.89 MB Wjd«-8u181-linux-arrmG4-vfp-hrilt.tar gz 
Linux x86 165.06 MB sjd«-8u181-linux-i586.rpm 
Linux x8& 170 87 MB  &jrd-3u181-linus-i586 tar. qz 
Linux x64 162.15 MB  *jdc-8u181-linux-x64.rpm 
Linux x&4 177.05 MB Sjd«-8u181-linux-x54.tar.gz 
Mac OS X x54 242.83 MB sSjd«c-3u181-macosx-x64.dmg 
Solaris SFARC 64-bit (SVR4 package? 133.17 MB  &jd«-3u181-zclarig-eparcvü tar.z 
Solaris SPARC 64-bit 98434 MB jd«-3u181-sclaris-sparcvB tar.gz 
Solaris xb4 (S VR4 package) 133.83 MB Sjd«x-8u181-solaris-xo4 tar .z 
Solaris x64 9211 MB id«-8u181-sclaris-x64 tar. oz 
Windows x85 1904 41 MB &jd«-3u181-windows-i5b36 exe 
windows x 2 6/3 MB *dssulsl-vinocows-xü4. exe 


& Tulorials 


4 Java com 


图 10-2 Java 版 本 下 载 


安装 包 下 载 后 直接 双击 运行 并 根据 安装 提示 即 可 完成 安装 ， 安 装 路 径 使 用 默认 设置 即 可 。 安 
装 成 功 后 , 还 需要 设置 计算 机 的 系统 环境 变量 。 右键 单 击 我 的 电脑 一 选择 属性 一 选择 系统 保护 一 选 
择 局 级 一 单 击 环境 变量 一 单 击 系统 变量 的 新 建 按 钮 ， 分 别 输 入 变量 名 JAVA HOME 和 变量 值 
C:\Program FilesJavagdk1.8.0 181， 变 量 值 是 Java 的 默认 安装 路 径 ， 有 具体 操作 如 图 10-3 所 示 。 
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查看 有 关 计 算 机 的 基本 信息 
Windows 版 本 


CAUsers DD App Data Loca Microsof Wind 


Pa 
4 Wi d 10 ; HUSERPROFILEH AppDataLora Temp 
NUOWS i 


HUSERPROFILE W AppData oca Temp 


本 进行 六 计数 更 改 . pmxEBIT, 


TENE 


WAAS, ENH, AERES, URERAF 


HAEE RR 
zac S PATHEXT COM; EXE; BAT: C MD: VES; VBE: 15; IE: WEGE: WISH: MEC: PY. B... 
PROCESSOR ARCHITECT.. AMD&B4 


JAVA, HOME 


CAProgram Files*Java^jdk 1.3.0 181 


B ELLE... ias HE]... 


图 10-3 ix E Java 环境 变量 


Java 环境 变量 设置 成 功 后 , 打开 CMD 窗口 来 验证 Java 是 否 安装 成 功 。 在 CMD 窗口 输入 java 
-version 并 按 回 车 就 会 显示 当前 Java 的 版 本 信息 ， 如 图 10-4 所 示 。 


EM C\Windows\system32\cmd.exe 
(c) 2016 Microsoft Corporations 1:3 -- IE. EP 

v: \Users\000> Java -version 

HEKE: "ver sion 1.8.0 181 | | 
JavatTIU SE Runtime Environment (build 1.8.0 l8l-bl3) 
Java HotSpot(iTM) 64-Bit Server VM (build 25. 181-b13 


|, mixed mode) 


Hau 


图 10-4 Java 版 本 信息 


Java 的 开发 环境 搭建 后 ， 下 一 步 是 搭建 Android SDK.» Android SDK 提供 了 Android API 库 和 
开发 工具 构建 、 测 试 和 调试 应 用 程序 。 简 单 来 讲 ，Android SDK 可 以 用 于 开发 和 运行 Android 系 
统 的 应 用 软件 。 在 官网 上 没有 找到 单独 的 Android SDK FREER, 官方 推荐 下 载 包 含 Android SDK 


的 Android Studio 。 只 能 通过 其 他 路 径 下 载 ， 在 浏览 吉 中 访问 http://tools.android-studio.org/ 


index.php/sdk， 单 击 下 载 android-sdk IT24.4.1-windows.zip， 如 图 10-5 所 示 。 


tools androld-studia.ora'index.pnhp/sal 


Android Studio 


图 10-5 ”下载 Android SDK 
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将 android-sdk r24.4.1-windows.zip 进行 解压 并 放置 在 D AH SDK 文件 夹 里 面 , 放置 的 路 径 没 
有 有 具体 要 求 ， 只 要 存在 的 空间 足够 大 即 可 ， 因 为 后 续 更 新 Android SDK 会 占用 比较 大 的 存储 空间 。 
Android SDK 的 路 径 信 息 如 图 10-6 所 示 。 


此 电脑 > tł (D) > SDK > android-sdk-windows 


| | add-ons 

Ld platforms 

| | tools 

T| AVD Manager.exe 
[us| SDK Manager.exe 
E| SDK Readme.txt 


图 10-6 Android SDK 的 文件 信息 


根据 图 10-6 中 的 文件 路 径 信 息 ， 将 其 添加 到 计算 机 的 系统 环境 变量 中 ， 添 加 方式 与 Java 的 相 
似 。 新 增 变量 ANDROID HOME， 变 量 值 是 Android SDK 的 文件 路 径 ， 如 图 13-7 所 示 。 在 系统 变 
量 Path 添加 两 个 变量 值 ， 分 别 是 Android SDK 的 platform-tools 和 tools 文件 夹 的 文件 路 径 ， 如 图 
13-8 所 示 。 
新 建 系统 变量 


wm  [anorom Home | 


变量 值 (Vi: DASDK\a nd bud k-windowsl 


浏览 目录 (D).… 


[10-7 添加 变量 ANDROID HOME 


C^Program FilesyGitbin 

DA Python Seripts\, 

DAPythor 

CAWindewskeystem32 

CAWindows 

CAWindewskVEystem32XWbem BEC) 
CAMindowsiSystem32XWindowsPowerShell.0^, 

CAProgram Files (x86)4NVIDIA CorporationNPhysXyCommoen 
CAProaram Files (x86) Windows KitsV3.1NWindows Performance... 
CAProgram FilesyRedis* 

DA Pythoni Lib’ 

DAPythorDLLs* 


变量 

ANDROID HOME 

ComSpec 

JAVA HOME 

NUMBER OF PROCESSORS 


CAProgram Filesinodejss 


S6AINDROID HOMES&platform-tools 
WANDROID_HOME tools 


图 10-8 变量 Path 添加 变量 值 


双击 运行 SDK Manager.exe， 这 是 更 新 安装 SDK 的 版 本 信息 。 根 据 实 际 需求 选择 安装 Android 
版 本 ， 比 如 本 书 的 Android 手机 系统 版 本 是 Android 8.0, Android 模拟 器 是 5.0 版 本 ， 安 装 选项 如 
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图 10-9 所 示 。 


E3 Choose Packages to Install 


Packages 


y” Android SOK License 
x Android SDK Tools, 


DE Android 7.0 (hp T 
OE Android 5.0 (API 23) 
| Android 5.1.1 (API 22) 
EAS Android 50.1 (API: 21) 


1 
Showe A Updates/Naw [-]Installed Select Hew or Updates 


Deselect All 


CI Obsolete 


图 10-9 


+” Android SDK Platfol 
a Android SOK Build -i 
w Android SDK Build-! 
wu Android SDK Burld-i 
f Android SOK Build -1 
w” Android SDK Build-! 
wu Android SDK Build- 
yf Android SOK Build -i 
«w Android SDK Build-! 
y” Android SOK Build- 
y” Android SOK Build -1 
x Android SDK Build-! 
au Android SOK - -| 
x Bndrol 1 


n this package 


D] 


Package Descnptian & License 
Packages 
- Android SDE Tools, revision 25.2.5 


- Android 5D Platfarm-tools, revision 28.0.1 
- Android SDE Build-teolz, 
- Android SDE Build-tools, 
- Android SDE Build-tools, 
- Android SDE Build-tools, 
- Android SDE Build-tools, 


- Android SOK Build-tools 
- Android SDK Build-tools 
- Android SOK Build-tools 
- Android SDK Build-taols 
- Android SDE Build-tools 
- Android SDK Build-tools 
- Ándraid SDE Build-tool s 


Accept Reject 


revision 28.0.2 
revision e8.0.1 
revision 28 

revision 27.0.3 
revision 27.0.2 


, revision 27.0.1 
, revision 27 

, revision Z5 D.3 
, revision 26.0.2 
, vision Z8 0.1 
, revision 26 

, revisian 25.0.3 


Android SDK 安装 选项 


完成 Android SDK 的 更 新 后 ， 打 开 AVD Manager.exe 来 创建 Android WAF. Android 模拟 器 
是 能 在 电脑 上 模拟 Android 操作 系统 ， 可 以 安装 、 使 用 、 印 载 Android 应 用 的 软件 ， 它 让 你 在 电脑 
上 也 能 体验 操作 Android 系统 的 全 过 程 。 

在 AVD Manager mEt “Create” HASHI Android 模拟 占 的 配置 信息 ， 
息 后 单 击 “OK” 按 钮 就 能 创建 Android 模拟 器 ， 如 图 10-10 所 示 。 


| | (rasta npa 


员 写 配置 信 


Rn 站 Srt] Dewiza LAT 1] 


1 = 4 hull Ferme: | Andes 11 
Andros] Vitua Desc Daie Deflmtiaes 


Dexice ei d GELT, TOS x 1280 hdpli 


Lr col cons tim Suede Virb Deve louis at Sr ard aed 


AVD Hars Targat Miama Faile- AA Le- CPUE undei 321 » A payal 站 


į 


CPG ARE 


Kigliicurd 


ATIS nr hay a] 


E Hariwutx koykxsarii geval 


Ng ski. 


Iran Song 


LE Cus d: 


Er ulsdius Dulcia L1 5nipshot 


REalraa- 


ad Viral Zwwirs pwi Farm hr lad. Ciok Tetali’ dr 


Bam qua 


dh A cwparats Anjani Vitia Deras, W An Anar 


图 10-10 创建 Android 模拟 器 


Android 模拟 器 创建 后 ， 在 AVD Manager 界面 可 以 看 到 了 刚 创 建 的 模拟 堪 信 息 ， 使 用 鼠标 选中 
模拟 器 信息 并 单 击 “Start” 按 钮 一 半 击 “Launch” 按 钮 即 可 运行 Android 模拟 器 ，Android BiU 23 
开启 时 间 相 对 较 长 ， 需 要 耐心 等 待 。 如 图 10-11 所 示 。 


Android Emulator - Andrcid5.0.1:... 


Skin: 768x1250 


Android Virtual Devices Device Definitions 320 


Density: 
List of existing Android Virtual Devices located at C:\WUsers 000 androidavd 


Path... 


[ Seale display ta real size 


AVD Name Target Name API e CPU/ABI 


sowen size him: 4 


A | Wipe user data 


aunch fram snapshot 


$e io cnapzhot 


xu 


à A repairable Android Virtual Device. 3i An Android Virtual Device that failed ta load, Click 'De 


图 10-11 启动 Android 模拟 器 
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最 后 测试 Android SDK 与 手机 的 连接 是 否 成 功 ， 手 机 通过 USB 连接 电脑 ， 并 且 开 启 手 机 的 开 
上 友 者 模式 以 及 安 闭 相应 的 驱动 程序 。 不同 手 机 的 开发 者 模式 的 开局 方法 各 不 相同 , 本 书 就 不 详细 讲 
述 ， 具体 的 开局 方法 可 目 行 网 上 人 查询， 手机 的 驱动 程序 安装 成 功 后 可 以 在 设备 害 理 右 伍 看 。 完 成 上 
述 操 作 后 , 在 CMD 窗口 输入 指令 adb devices 查看 手机 信息 。 如 果 没 有 开局 开发 者 模式 和 安装 驱动 
程序 ， 在 CMD 窗口 是 无 法 显示 手机 信息 的 。 如 图 10-12 所 示 。 
十 | 设备 管理 句 E CAWindowsVsystem32Xemd.exe 


文件 (月 EEA) ”查看 (V) HEH) licrosoft Windows RA Ls 0. 14393] 0 O 
aad HAM SV) ENH) orporation. 保留 所有 权利 。 
e9 MEIH RRI EXE 


- Network Infrastructure Devices 


zx WSD 打印 提供 程序 


TE) ns 
C: “Users O00 


图 10-12 ”驱动 程序 ( 左 ) 手机 信息 ( 右 ) 


下 一 步 开 始 搭 建 NodeJS 的 开 友 环境 , 它 是 用 于 运行 Appium-Server。 在 官方 下 载 Node.JS 8.12 
版 本 ， 在 浏览 吉 访 问 https://nodejs.org/en/download/， 根 据 上 自己 的 计算 机 系统 下 载 相 应 的 安装 包 ， 如 
图 10-13 所 示 。 


m Download | Node.js x 
= O | 安全 https//nodejs.org/en/download/ 


LTS Current 


Recommended For Most Users Latest Features 


E 


Windows Installer macos Installer 5ource Code 


Windows Installer (.msi) 32-bit 64-bit 
Windows Binary (.zip) 

macos Installer (.pkg) 

macOS Binary (.tar.gz) 

Linux Binaries (x86/x64) 

Linux Binaries (ARM) 


TT Para 
ttpsz/ I nedeqs.arg/dist/«B.12 


图 10-13 NodeJS 安装 包 


Node.JS 安装 包 是 一 个 Windows 可 执行 的 应 用 程序 ， 直 接 双 击 运 行 并 根据 安装 提示 进行 安装 ， 
安装 路 径 等 一 些 安 装 提 示 使 用 默认 设置 即 可 。 安 装 成 功 后 ， 在 CMD 窗口 验证 Node.JS 是 否 安装 成 
功 ， 验 证 指令 以 及 验证 结果 如 图 10-14 所 示 。 


EN CAWindowsWsystem32Xcmd.exe 


Xi crosoft Windows 有 10. Q. 145 ^ 
ic) 2015 Microsoft Corporation. BEERA. 


C: ‘Users\000>node - 
vö. L2. U 


P : ^ U E er g X u i i 3 - 


图 10-14 验证 Node.JS 
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Appium-Server 分 为 Server 版 和 Desktop 版 , Server 版 在 2015 年 底 已 经 停止 更 新 , 目前 Desktop 
WEIZ Server 版 的 使 傅 。 话 昌 如 此 ，Server 版 现在 仍然 可 以 使 用 。 本 书 以 Desktop 版 为 例 ， 在 
github Chttps://github.com/appium/appium-desktop/releases/tag/1.7.0) 下 载 exe 安装 包 ， 选 取 1.7 最 新 
版 本 ， 如 图 10-15 所 示 。 


[T] appium-desktop-1.7.0-ia32.nsis.7z 


CT appium-desktop-1.7.0-mac.zip 

CT appium-desktop-17.0-x86 64 Applmage 
CI appium-desktop-Setup-1.7.0-ia32.exe 

LT appium-desktop-setup-1.7.0.exe 

CT appium-desktop-setup-1.7.0.exe.blockmap 


C appium-desktop-web-setup-1.7.0.exe 


CT latest-linux.yml 394 Bytes 


图 10-15 Appium-Server 安装 包 


Appium-Desktop 下 载 后 直接 运行 ， 安 装 路 径 等 一 些 安 装 提 示 使 用 默认 设置 即 可 。 安 装 成 功 后 
在 果 面 上 可 以 看 到 Appium 图 标 , 双击 图 标 后 , 在 Appium-Desktop 的 界面 上 单 击 “StartServerv1.9.0” 
按钮 来 启动 Appium-Server， 如 图 10-16 所 示 。 


Q3 Appium 


File View Help 


Welcome to Appium w1. 9.0 


Àppium REST http 1nterface listener started on 0.0.0. 0:4723 


图 10-16 启动 Appium-Server 


最 后 安装 Appium-Client 的 Python 版 本 ， 在 CMD 窗口 下 输入 pip install Appium-Python-Client 
指令 并 等 行 安 装 完 成 即 可 。 

在 搭建 Appium 的 过 程 中 ， 我 们 分 别 安 装 了 JavaJDK、Android SDK、Node.JS、Appium-Server 
和 Appium-Client， 每 个 开发 环境 之 间 都 有 一 定 的 联系 ， 比 如 JavaJDK 和 Android SDK I]3& zr TE In] 


题 等 。 
10.3 连接 Android 系统 


Appium 对 Android 系统 实现 目 动 化 操作 ， 第 一 步 是 将 Appium 与 Android 进行 通信 连接 ， 连 
接 代码 是 相对 比较 固定 的 。 在 连接 代码 中 根据 Android 系统 信息 进行 相应 的 修改 即 可 实现 连接 , XE 
接 代码 如 下 : 


from appium import webdriver 
desired capa o0 


第 10 章 手机 App 数据 公 取 | 93 


# 设置 Android 系统 信息 


desired caps['platformName'] = 'Android' 


desired caps['platformVersion'] = '8.0' 
desired caps['deviceName'] -~ 'huawei-lld a120-30KNW18730002140' 
desired caps['appPackage'] = 'com.android.calculator2' 


desired caps['appActivity'] = '.Calculator' 

# 回 Appium-Server 发 送 请 求实 现 连接 

driver — webdriver.Remote('http://localhost:4723/wd/hub', desired caps) 

在 上 述 代 人 码 中 ， 变 量 desired_caps 是 一 个 字典 ， 字 和 典 的 key 是 代表 Appium 5 Android 系统 的 
连接 参数 ， 字 典 的 value 是 Android 系统 信息 。 每 个 key 代表 不 同 的 意思 ， 有 具体 说 明 如 下 。 
platformName: 需要 被 连接 的 操作 系统 ， 如 10S、Androld x FirefoxOS, 
platformVersion: Android 系统 的 当前 版 本 信息 ， 如 本 书 的 手机 系统 为 8.0。 
deviceName: 每 台 移 动 设 备 或 模拟 器 的 设备 名 ， 设 备 名 是 唯一 的 。 
appPackage: 需要 执行 自动 化 的 Android 应 用 的 包 名 。 
appActivity: Android 应 用 包 中 尼 动 的 Androlid Activity 名 称 。 


这 5 个 参数 是 连接 Android 系统 的 基本 参数 ,每 个 参数 值 的 获取 方式 各 不 相同 。 下 面 我 们 讲述 
参数 值 的 获取 方法 。 

参数 platformName 只 有 三 个 参数 值 ， 分 别 是 10S. Android 和 FirefoxOS， 代 表 不 同 的 操作 系 
Zi o 

参数 platformVersion 是 移动 设备 或 模拟 喜 的 系统 版 本 信息 。 以 华为 手机 的 系统 版 本 信息 获取 
为 例 ， 在 手机 的 “设置 ”一 “系统 ”一 “关于 手机 ”里 面 找 到 Android 版 本 信息 ， 如 图 10-17 所 示 。 


| 


aiia LLD-AL20 8.0.0.123(C00) 


EMUI 版 本 8.0.0 


Android 版 本 


图 10-17 Android 版 本 信息 


参数 deviceName 的 参数 值 获取 较为 党 琐 ， 获 取 过 程 需 要 借助 工具 来 完成 。 打 开 Android SDK 
所 在 的 文件 夹 , 找到 tools 文件 夹 里 的 uiautomatorviewer.bat 文件 并 双击 运行 , 该 文件 启动 一 个 名 为 
UI Automator Viewer 的 软件 ， 访 软件 用 于 捕捉 Android 应用 程序 的 控件 元 条 信息 , 在 下 一 节 中 还 需 
要 借助 该 软件 来 实现 元 素 的 定位 。 软 件 界面 如 图 10-18 所 示 。 


94 | 实战 Python WEEE 


E" UI Automator Viewer 


[ee a 


获取 安利 系统 当前 界面 的 控件 信息 


Node Detail 


图 10-18 $F Ifl 


在 Android SDK 的 文件 路 径 找 到 AVD Manager.exe 并 双击 运行 ,该 exe 程序 可 以 启动 Android 
模拟 器 ， 具体 的 启动 方式 如 图 10-11 所 示 。 再 将 手机 连接 到 计算 机 , 连接 之 前 确保 手机 已 开启 USB 
调试 模式 ， 连 接 成 功 后 ， 手 机 界面 会 出 现 一 个 USB 调试 提示 信息 ， 单 击 “ 确 定 ” 按 钮 即 可 ， 如 图 
10-19 所 示 。 


是 天 允许 USB 调试 ? 


这 台 计 算 机 的 RSA 密 钥 指纹 如 下 : 
CC:9E:7D:F2:5D: 
45:DA:F5:CA:86:EF:DF:C9:1A:F7:FO 


EEEE HE Ha 53 HORT LET E 


取消 


[10-19 USB 调试 提示 信息 


现在 计算 机 已 分 别 开 启 了 Android 模拟 器 和 连接 了 一 台 Android 手机 ， 单 击 图 10-18 所 标注 的 
按钮 ， 软 件 束 会 出 现 一 个 设备 选择 的 界面 ， 寞 面 中 的 设备 名 就 是 参数 deviceName 的 参数 值 。 总 的 
来 说 ， 参 数 deviceName 的 获取 必须 借助 工具 UI Automator Viewer， 同 时 保证 计算 机 已 连接 两 台 或 
以 上 的 Android 设备 或 Android 模拟 器 ， 如 图 10-20 所 示 。 


Select device| | huawei-lld al20-37KNW18730002140 ~ 


0002140 


参数 deviceName 的 参数 慎 


图 10-20 ”获取 deviceName 


227)  appPackage 同样 需要 值 助 工具 UI Automator Viewer 获取 , 选中 图 10-20 的 huawei 设备 并 
且 确 你 手机 的 屏幕 稼 完 ， 单 击 “OK ”按钮 ， 软 件 束 会 目 动 捕捉 手 机 当前 和 界面 的 控件 信息 。 单 击 手 
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机 上 的 某 个 控件 ， 访 控件 信息 束 会 显示 在 右 侧 。 其 中 参数 package 的 参数 值 承 是 参数 appPackage 
的 参数 值 ， 如 图 10-21 所 示 。 


c Mea 


w (0) LinearLayout [42,294][1038,438] 
w (0) LinearLayout [42,294][1038,438] 
w (0) LinearLayout [42,294][1038,438] 
(0) com.tencent.mm.ui.MMlImag 
w [lY linearl avcuit IRR 2071IQ1R A 
£ * 
Node Detail 
index 0 
text HRE 
resource-id android:id/title 
class android.widget.TextView 


content-desc 


图 10-21 控件 信息 


参数 appActivity 的 获取 需要 保证 计算 机 上 只 有 一 台 Android 设备 或 Android 模拟 器 。 以 手机 为 
例 ， 关 闭 Android 虚拟 机 ， 打 开 CMD 窗口 并 输入 adb shell dumpsys activity activities 指令 来 获取 当 
前 设备 的 程序 运行 信息 。 在 这 些 信 息 中 可 以 找 出 appActivity 的 参数 值 ,比如 得 找 微 信 的 appActivity， 
通过 参数 appPackage 确定 appActivity 的 参数 值 ， 如 realActivity=com.tencent.mm/.ui.LauncherUI, 
和 斜 杠 后 面 的 内 容 .ui.LauncherUI 就 是 参数 appActivity 的 参数 值 ， 如 图 10-22 所 示 。 


EN CAWindowsYsystem32Xcmd.exe 


MI crosoft Windows LhP&-. 10.0. 143 93] T 
(c) 2016 Microsoft Corporation. 十 ER PH 有 权利 a 


o: \Users\000radb she 11 dumpsys activity activities 
BCTIVITY MANAG p MI VITIES idumpsys activity activities 
Display HO lactivities from top to bot tom : 
otack 81: 
m'ullscreen-true 
mbounds-null 
Task id #3916 
m'ullscreen-true 
nmbounds-null 
mlinWidth--1 
mainHeizht--1 
Wn IAM TUR HUE 
t TaskRecordic7clO0f6 #3916 A-com. tencent.mm U=0 Stac kId-l sz-lj 
us erId-0 off tectivellid-u0alZ0 mcallingUid-uÜa61l mlsersetuptomplete-true nm&íallingPackage-com huawei. andro 
1d. launche 
all ini ty-com. tencent. mm 
intent=lact=android intent. action. MAIN cat=landroid. intent. category. LA 
t mm/ i umso 
realÁctivity-com tencent.mm/.ui.Launcherll 
autoKemov -JUSTSI VE ER ESTEE] [ESPERE T ELE ETERNI lscTeen=] taskType=0 mI u-—— urnlIo-1 
WT et-tr "1e mever Relin uishldentityv=true mReuseTask-false mLog klas th=LOCE TASKE AITTH PINNABLE 
ztl re := [ActivitvRecordi975493f ud com tencent.mn/.ui.LauncherUI 七 39] 16} ] 
as idiCompatMo e ee nRecents=true ishvailable=true 
lastThumbnail-null lastThumbnallFile-/data/system ce/Ü/recent imees/3916 task thumbnail. 
atackld-1 


图 10-22 frik appActivity 
参数 appPackage 和 参数 appActivity 的 获取 方法 并 不 是 唯一 的 ， 这 两 个 参数 都 可 以 通过 不 同 的 


方法 获取 ， 有 兴趣 的 读者 可 以 自行 在 网 上 查阅 相关 的 资料 。 除 此 之 外 ，Appium 在 连接 移动 设备 或 
模拟 器 上 还 提供 了 很 多 连接 参数 ， 本 书 列 出 一 些 常用 的 参数 及 其 说 明 ， 如 表 10-1 所 示 。 
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表 10-1 常用 参数 及 说 明 


参数 参数 什 


通用 参数 
选择 自动 化 引擎 Appium (EA). Selendroid, 
UiAutomator2. Espresso 
在 移动 设备 上 安装 应 用 程序 安装 包 存放 路 径 ,如 DAQQ.apk 


browserName 移动 网 页 浏览 器 的 名 称 如 iOS 的 “Safari”，Android 的 
“Chrome” 


客户 端 退出 并 结束 连接 之 前 ，Appium | 时 间 以 秒 为 单位 
等 待 客户 端 新 命令 的 时 间 


设置 语言 环境 如 中 文 一 一 z CN 
连接 物理 设备 的 唯一 设备 标识 符 如 手机 的 序列 号 
连接 之 前 不 重 置 应 用 程序 状态 布尔 型 ， 默 认 True 


执行 完整 的 重 置 , 即 清除 应 用 数据 并 卸 | 布尔 型 ， 默 认 False 
载 apk 

启用 或 禁用 各 种 Appium 内 部 事件 的 时 
间 报 告 

JH Chromedriver (ZE Android E) ER 
Safari (YE iOS E) 性 能 记录 


ERIL False 


SJ. False 


app WaitActivity 等 待 Android 应 用 程序 启动 等 同 appActivity 参数 值 
app WaitPackage 等 待 Android 应 用 程序 的 程序 包 等 同 appPackage 参数 值 


app WaitDuration Ix B. appWaitActivity 尼 动 的 超时 LA z& Fb NÉE, ERU E AN 20000 
deviceReadyTimeout Vx EL C EE A ex HJ ERST 以 秒 为 单位 


androidInstallTimeout 等 待 apk 安装 到 设备 的 超时 以 宣 秒 为 单位 ， 默 认为 90000 
androidInstallPath wA. apk HAREE TRA EIE: /data/local/tmp 
用 于 连接 到 ADB 服务 器 的 端口 默认 5037 


chromeOptions 允许 ChromeDriver fi% chromeOptions | chromeOptions: fargs: 
功能 ['--disable- popup-blocking']] 


recreateChromeDriverSessions 在 移 至 非 ChromeDriver 网 页 浏览 的 情 TRUA False 
况 下 杀 死 ChromeDriver 会 话 


设置 网 络 速度 模拟 。 指定 最 大 的 网 络 上 | 默认 为 fall 
传 和 下 载 速度 


设置 设备 上 的 屏 攻 截图 的 路 径 地 址 默认 路 径 : /data/local/tmp 
使 用 unicode 编码 方式 发 送 字符 下 布尔 型 ， 默 认 值 False 
将 键盘 隐藏 起 来 布尔 型 ， 默 认 值 False 
例如 gregorian 

连接 物理 设备 的 唯一 设备 标识 符 如 手机 的 序列 号 
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CER) 
locationServicesEnabled 强制 定位 服务 处 于 打开 或 关闭 状态 布尔 型 ， 默 认 保持 当前 的 模拟 
Vw E 


将 位 置 服务 设置 为 授权 或 未 授权 布尔 型 ， 默 认 保持 当前 的 模拟 
设置 


safariInitialUrl 初始 Safari 浏览 器 网 址 默认 为 本 地 欢迎 页 面 


safariAllowPopups 允许 JS 在 Safari 中 打开 新 窗口 布尔 型 ， 默 认 保 持 当 前 的 模拟 
V EL 

safarilgnoreFraud Warning 防止 Safari ZR EX YE P9 rh E 布尔 型 ， 默 认 保 持 当 前 的 模拟 
V E 

safariOpenLinksInBackground Safari 是 否 允 许 在 新 窗口 中 打开 链接 布尔 型 ， 默 认 保 持 当 前 的 模拟 
V E 


应 用 程序 的 显示 名 称 


10.4 App 的 元 素 定 位 


上 一 章节 讲述 了 Appium 连接 Android 系统 的 实现 过 程 ， 程 序 中 以 driver 对 象 表示 连接 成 功 并 
日 将 连接 状态 持久 化 ， 整 个 自动 化 程序 都 是 围绕 这 个 driver 对 象 进行 展开 。Appium 为 driver 对 象 
提供 了 许多 函数 方法 ， 每 个 函数 方法 是 实现 某 个 目 动 化 操作 。 

由 于 Appium 是 在 Selenium 的 基础 上 进行 封装 ， 所 以 Appium 的 元 对 定位 与 操作 采用 了 
Selenium 部 分 的 方法 。 在 讲述 元 厅 定 位 与 操作 之 前 ， 我 们 先 学 习 元 素 的 查找 方法 ，Android 系统 的 
元 素 查 找 需要 借助 软件 UI Automator Viewer 实现 。 以 手机 的 计算 器 为 例 ， 比 如 查找 数字 6 的 元 素 
属性 ， 有 具体 操作 步 又 如 下 : 


SROI 将 手机 与 计算 机 进行 连接 ， 连 接 之 前 确保 手机 已 开启 USB 调试 模式 。 

5024 唤醒 手机 屏幕 ， 当 手机 界面 出 现 USB 调试 提示 信息 时 ， 单 击 “确定 ”按钮 并 打开 
HABT SR. 

步骤 03 4 FTA ERIE UI Automator Viewer， 单 击 “DeviceScreenshot” 按 钮 捕捉 手机 当前 界面 。 

步骤 044 捕捉 成 功 后 ， 在 软件 的 左 侧 会 出 现 手 机 界面 的 截图 ， 单 击 截图 的 数字 6， 该 数字 的 
相关 属性 都 会 展示 在 软件 的 右 侧 ， 这 些 属性 就 是 我 们 所 需 的 元 素 属性 ， 如 图 10-23 所 示 。 
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8 ' Ul Automator Viewer 
2n m 


\ Device Screenshot (urautomator dump) | 


(25) View [268,1399][270,1690] ^ 
k mkh 20) Button:5 [270,1399][539,16 
L2 I-A 
xd LE ws (27) View [539,1399][541,1690] 
(28) Button:6 [541,1399][B10,16 
(29) View [810,1399][812,1690] 
(30) ImageView (0) [812,1399]| .. 


> 


index 28 其 个 元 素 信 Fs 
| LA aa 
text 


resource-id com.android.calculator2:d/digit 6 


class android.widget.Button 
package com.android.calculator?2 
content-desc 

checkable false 


checked false 


图 10-23 RARR 


数字 6 的 元 又 属 性 一 共有 17 个 , 但 是 只 有 5 个 属性 能 用 于 元 辫 定 位 ,它们 分 别 是 index, text, 
resource-id, class 及 content-desc。 那 么 ，Appium 对 数字 6 的 定位 方法 如 下 : 


# 通 过 index 定位 

#Appium 的 uiautomator 方法 

indez = "20" 

ua = "new UiSelector{(}) .index(" + index + ')' 
driver.find element by android uiautomator (ua).click() 


# 通 过 text 定位 

#Appium 的 uiautomator 方法 

| 

ua — 'new UiSelector().text("' + text + '")' 
driver.find element by android uiautomator (ua).click() 


# 通 过 resource-id 定位 

resourceld = 'com.android.calculator2:id/digit 6' 
#Selenium 的 方法 

driver.find element by id(resourceId) 

#Appium 的 uiautomator 方法 

ua = 'new UiSelector().resourceld("' + resourcelId + '")' 
driver.find element by android uiautomator (ua).click() 


# 通 过 class 定位 

#Selenium 的 方法 

class name = 'android.widget.Button' 
driver.find element by class name(class name) 


# 通 过 content-desc 定位 
#Appium 的 uiautomator 方法 
# 由 于 数字 6 的 属性 值 为 空 ， 此 处 选取 按键 C 


description = "消除" 
ua = 'new UiSelector().description("' + description i '")' 


driver.find element by android uiautomator (ua).click() 


方法 三 
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driver.irnd clement by accessibility 1d(! 清除 ') .click 1/() 


$ Xpath 定位 

xpath = '//android.widget.Button[contains(Gtext,"6")]' 

driver.find element by xpath(xpath).click() 

JUR XE 3E EH] f. Selenium 的 方法 和 Appium 的 uiautomator 方法 实现 ， 在 5 个 属性 中 ， 除 
了 元 素 属性 class 之 外 , ER 4 个 元 素 属性 都 能 使 用 Appium 的 uiautomator 方法 进行 定位 , Selenium 
的 方法 只 适用 于 class 和 resource-id 属性 ， 而 Selenium 的 Xpath 方法 是 根据 元 素 的 布局 进行 定位 ， 
它 能 用 于 任何 Android 应 用 程序 。 在 PyCharm 编写 代码 的 时 候 ， 代 人 码 提示 还 会 出 现 所 有 Selenium 
的 定位 方法 ， 这 些 定 位 方法 主要 用 于 手机 浏览 右 的 网 页 目 动 化 开发 。 

使 用 Appium 的 uiautomator 方法 进行 元 每 定位 的 时 候 ， 不 同 的 属性 有 不 同 的 代码 编写 规则 ， 
有 具体 的 差异 体现 在 上 述 代码 的 变量 ua 上 ， 由 于 变量 ua 的 代码 格式 较为 固定 ， 只 要 细心 观察 才能 友 
现 差 异 之 处 。 对 于 Xpath 定位 , 需要 掌握 Xpath 语法 才能 写 出 相应 的 定位 代码 , 由 于 本 书 篇 幅 有 限 ， 
此 处 就 不 做 详细 介绍 ， 有 兴趣 的 读者 可 以 自行 查阅 资料 。 


10.5 App 的 元 素 操控 


在 讲述 元 台 定位 的 时 候 ， 定 位 后 的 元 兹 都 执行 了 单 击 处 理 ， 访 操作 由 click0 方 法 实现 。 当 我 们 
使 用 手机 的 时 候 , 使 用 过 程 中 大 多 数 操作 都 是 单 击 、 文 本 输入 和 滑动 。 单 击 是 由 click0 方 法 实现 的 ; 
文本 输入 由 send keys0 方 法 实现 ; 滑动 操作 由 swipe0 方 法 实现 。 单 击 操作 在 上 一 节 的 代码 中 已 有 
使 用 示例 ， 并 且 使 用 方法 相对 简单 ， 此 处 不 再 性 述 ， 下 面 主要 讲述 文本 输入 和 滑动 操作 。 

以 美 团 为 例 ， 单 击 首页 顶部 的 搜索 文本 框 会 进入 一 个 搜索 页 面 ， 然 后 可 在 搜索 页 面 中 输入 相 
关 的 搜索 内 容 ， 如 图 10-24 所 示 。 


C) ra- UE] 4^ 


一 由 1 21-3. E js, (0) RelatreeLayout [D0,90][1080, 234] * (0) LinsarLayout [D,S0][1080,234] 
3 : E ND m m Bani 
: (1) ImageView [0.90][1080.234] A (0) ImageView [0,132][135,192] 


"1 (2) RelativeLayout [0,90][1080,234] ccc cd acd (1) EditText ETER AMORES 
Ó eS (2 (0) LinearLayout [102,90][309 234] (2) TextView:i& xe [936,90][1080,234] 
- posi (1) View [0,114][114,219] vw (1) FrameLayout [D,234][1080,1520] 
" - wo m - (2) LinearLayout [207,118][930,205] w (0) LinearLayout [0,234][1080,1520] 
|| Node Detail 1 Node Detail 
index 1 Index 1 
text ATERA AROHA 548615] » sinis text RIERA AHOA 3 5i 15) 
resource-id com.sankuai.meituan:id/search edi Bio B X p Qv rescurce-id com.sankuai.mertuand/search edit 
|| class android.widget.TextView | i : class android.widget.EditText 


package com.sankuai.meituan package com.sankuai.meituan 


cH JEL MHO J 
content-desc 3 content-desc 
checkable false j | PORS | TW | WXYZ checkable false 


|| checked false E bs checked false 


图 10-24 ”查找 元 素 信 息 


我 们 要 对 图 中 两 个 文本 框 进 行 定 位 并 操控 ， 第 一 个 文本 框 是 进行 单 击 操控 ， 第 二 个 文本 框 是 
进行 文本 输入 操作 ， 有 共 体 的 实现 代码 如 下 : 
from appium import webdriver 


import time 
desired caps s 
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'platformName': 'Android', 
"platformversion'- '8.90', 
'deviceName': 'huawei-1ld al120-30KNW18730002140', 


'appPackage': 'com.sankuai.meituan', 
'appActivity': 'com.meituan.android.pt.homepage.activity.MainActivity', 
# 设置 中 文 输入 


'unicodeKeyboard': True, 
"reset keyboard: Trie, 
) 
# 回 Appium-Server 发 送 请 求实 现 连 接 
driver = webdriver.Remote('http://localhost:4723/wd/hub', desired caps) 
time.sleep(3) 
# 单 击 系统 提示 框 
for 1 in range(2): 
resourceIld = 'com.android.packageinstaller:id/permission allow button' 
driver.find element by id(resourceId).click() 
time.sleep(3) 
# 单 击 首 页 输入 框 
resourcelid = Tcom.-sankuai-meiLuüan:id/search edir' 
driver.find element by id(resourceId).click() 
time.sleep(3) 
# 输入 搜索 内 容 
resocurcerd — 'com.sanküdi-mertuan:id/search edit' 
driver.find element by id(resourceId).send keys('J 州长 隆 ") 


ERE P, FH desired caps 额外 设置 了 参数 unicodeKeyboard 和 resetKeyboard， 前 者 是 将 键 
AAFO unicode 格式 ， 后 者 是 将 手机 的 输入 法 改 为 Appium 的 输入 法 。 只 有 同时 设置 这 两 
个 参数 ，Appium 才能 在 手机 上 输入 中 文 内 容 ， 否 则 输入 的 内 容 就 会 变 成 乱码 。 

Appium 在 运行 Android 应 用 程序 的 时 候 ， 应 用 程序 在 局 动 时 是 处 于 一 种 初始 化 的 状态 ， 也 就 
是 说 Appium 清除 了 用 户 在 这 个 应 用 上 的 使 用 痕迹 。 当 Android 应 用 程序 启动 成 功 后 ， 系 统 会 出 现 
相应 的 系统 提示 框 , 因此 在 执行 目 动 化 操作 之 前 , 还 需要 对 这 些 系统 提示 进行 相应 的 处 理 才 能 执行 
下 一 步 的 操作 ， 如 图 10-25 所 示 。 


“ 美 团 "需要 使 用 您 的 位 置 权限 ,您 是 否 人 允许 ? 


等 止 后 不 再 询问 


始终 允许 


Appium 的 清 动 操作 可 以 分 为 上 滑 、 下 请 、 左 请 和 右 滑 ， 不 管 哪 一 种 靖 动 ,它们 都 是 由 swipeO 
方法 实现 ， 只 要 对 swipe0 方 法 传 入 不 同 的 参数 怠 能 实现 不 同 的 滑动 方式 ，swipe(0) 方 法 的 定义 如 下 : 

swipe (int Start x, int start y, inL end x, int vy, duration) 

参数 说 明 : 

int start x 开始 滑动 的 x 坐标 

int start y 开始 滑动 的 y 坐标 
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int end x 结束 点 x 坐标 
int end y 结束 点 y 坐标 
duration 滑动 时 间 (默认 5 =P) 
从 swipe0 方 法 定义 可 以 看 到 ， 清 动 屏 幕 需 要 佑 助 屏 幕 上 的 坐标 位 置 ， 由 于 每 台 手 机 的 分 辨 率 
和 尺寸 大 小 不 同 ， 如 果 将 清 动 位 置 设 为 一 个 固定 的 坐标 ， 在 其 他 手机 上 不 一 定 能 适用 ， 所 以 只 能 生 
根据 手机 的 屏幕 大 小 来 制定 滑动 位 置 。Appium 提供 了 相应 的 方法 来 获取 手机 屏幕 的 尺寸 大 小 ， 实 
现 过 程 如 下 : 
# 获得 手机 屏幕 分 辨 率 x,y 
def getSize(): 
x — driver.get window size()['width'] 
y = driver.qet window 51ze()['het:ght'] 
return {x, y) 
图 数 getSizeO 是 我 们 目 定 义 的 函数 ， 在 函数 中 使 用 了 Appium 的 get window size0 方 法 来 获取 
手机 屏幕 分 辨 率 。 每 台 手机 的 坐标 点 都 是 从 左上 方 为 起 点 ， 右 下 方 为 终点 ， 这 与 计算 机 屏幕 分 辩 率 
的 坐标 点 分 布 原理 是 相同 的 ， 如 图 10-26 所 示 。 


图 10-26 “手机 屏幕 分 辩 率 


1H 5) BEdS EE EE BERI] E PMET II] 从 函数 getSize0 的 返回 值 可 以 计算 不 同位 置 的 坐标 
Ro A SIXA E. eugon] ASKER BERI 2/7] AAI SCHLANRG AUI F : 


on E82] 
def swipeUp (t): 
local ~- getsSize() 
x — zntíltocal[0] * 0.5) 
yl = int(locall[lll] * 0.75) 
y2 = int(locall[lll] * 0.25) 
driver.swipe (x, yl, X, w2. t) 


# 回 下 请 动 
def swipeDown (t): 
local — getsSize() 
x — inttlocalia] * 0-5) 
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yl = int{local[l] * 0.25) 
y2 = int{local[l] * 0.75) 
driver.swipe (Xx, yl, X, Y2, t) 


# 问 左 滑动 
def swipLeft (t): 
local = getsSize() 
xt — int Lidl * 0.75) 
y = int(locall[ll] * 0-5) 
x2 — nbfteorsarpp * 0-05) 
driver.swipe (Xl, y, x2. y, t) 
# 问 右 滑动 
def swipRight (七 ) : 
local = getSize() 
x] — intilocallol * 0.05) 
y = int(locall[l] * 0.5) 
x2 — intiløocallo] * 0.75) 
driver.swipe(xl. y, X2, y, t) 


不 同 的 滑动 方式 对 swipeO 的 参数 有 不 同 的 设置 。 比 如 加 上 滑动 ，X 坐标 的 起 始 位 置 与 结束 位 
置 是 固定 不 变 的 ，Y 坐标 的 起 始 位 置 是 屏幕 的 3/4 位置， 结束 位 置 是 屏幕 的 1/4 位置 ， 也 就 是 从 下 
往 上 滑动 , 如 图 10-27 所 示 。 每 个 函数 的 参数 t 代表 滑动 时 间 ,， 参 数值 的 大 小 会 直接 影 啊 靖 动 效 果 ， 
一 般 设 置 为 1000， 如 果 使 用 swipeO 的 默认 值 5 宣 秒 ， 则 在 手机 上 完全 没有 滑动 效果 。 


EMILE 
M ccs sacs 


图 10-27 ”手机 屏幕 位 置 


除了 上 述 的 目 动 化 操作 之 外 ，Appium 还 提供 了 许多 实用 的 操作 方法 。 这 些 方法 都 是 由 driver 
对 象 使 用 ， 它 们 定义 在 Python Zz3& H5 WLib site-packagesappium Wwebdriverwebdriver.py 中 ， 每 种 
方法 所 实现 的 功能 以 及 参数 都 有 注释 说 明 ， 有 兴趣 的 读者 可 以 目 行 查 阅 。 


10.6 Kik: 淘 至 商品 采集 


通过 前 面 的 学 习 ， 相 信 大 家 对 Appium 的 目 动 化 马 能 有 了 一 定 的 了 解 和 和 车 握 ， 在 本 世 中 ， 我 们 
以 手机 淘宝 的 商品 信息 采集 为 例 ， 进 一 步 掌 握 Appium 的 开发 。 整 个 项 目的 业务 流程 大 人 致 如 下 : 
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(1) Appium 启动 手机 淘宝 App， 并 处 理 Android 系统 的 提示 信息 。 

(2) 蛙 击 淘宝 站 贝 顶 部 的 搜索 框 ， 进 入 淘宝 的 搜索 界面 。 

G) 在 搜索 界面 输入 搜索 内 容 并 蛙 击 “搜索 ”按钮 。 

(4) 进入 商品 界面 ， 单 击 “ 销 量 ” 按 钮 ， 将 商品 以 销量 排序 。 

(5) 读 取 当前 界面 的 商品 信息 ， 对 每 条 信息 进行 去 重 和 写 入 处 理 。 

(6) 在 商品 界面 执行 同上 滑动 ， 读 取 其 他 商品 信息 ， 重 复 执行 步骤 (5) 。 


分 析 上 述 的 业务 流程 ， 在 手机 淘宝 App 里 需要 定位 的 元 系 分 别 有 : 淘宝 首页 搜索 杠 、 搜 索 界 
面 的 搜索 框 、 商 品 信 息 界 和 面 的 “销量 ”按钮 以 及 商品 信息 的 标题 和 价格 ,在 软件 UI Automator Viewer 
里 分 别 定位 并 查找 这 些 元 素 信 息 ， 夺 软件 在 截取 手机 界面 时 出 现 报错 ,请 先天 财 Appium 服务 器 再 
次 执行 截取 操作 ， 因 为 Appium 服务 句 会 对 软件 的 使 用 有 一 定 的 影 啊 。 

打开 手机 淘宝 ， 使 用 软件 UI Automator Viewer 截取 整个 淘宝 首页 的 元 素 信 息 ， 单 击 软件 截图 
的 搜索 框 ， 发 现 搜 索 框 可 以 通过 index. resource-id 和 class 属性 进行 定位 ， 如 图 10-28 MR. 763 
的 text 属性 虽然 有 属性 值 ， 但 是 每 次 打开 淘宝 都 会 发 现 text 的 属性 值 各 不 相同 。 属 性 class 可 以 在 
一 个 界面 里 重复 使 用 ， 但 是 此 界面 只 有 一 个 搜索 框 ， 因 此 class 属性 也 能 实现 定位 。 在 选择 属性 进 
行 定 位 的 时 候 ， 需 要 结合 实际 情况 来 分 析 每 个 属性 是 否 可 行 。 以 resource-id 定位 为 例 ， 代 码 如 下 所 
Zi: 


+ 单 击 首 页 搜索 框 
TresourceId = "com.taobao.taobao:1id/home searchedatrt' 
driver- Tind element by 1d(resourcerd}.click() 
$ | 
E FrameLayout [0,0][1080,234] 


T] itr 
送 15 件 套 实木 家 居 dh (0) LinearLayout [0,90][1080,234] 
Rx 100038 46€ an mu^ UA a 


(0) LinearLayout { 扫 一 扫 } [0,90][150,234] 
w (1) FrameLayout [150,112][930,211] 
vw (0) RelativeLayout [180,112][900,211] 
(0) TextView: i (1x) [180,112][246,211] 
(1) View [180,208][800,211] 
(2) EditText:zEetitih [246,112][B07,211] 
(3) TextView:zd { 拍 立 淘 } [807.1121[900.211] 


ode Detail 
index 2 
text CEP 
resource-id com.taobao.taobao:id/home searchedit 
class android.widget.EditText 
package com.taobao.taobao 
HELA an pRO, SATAMAA, content-desc 
O xm cmd checkable 
! checked 
clickable 
enabled 


focusable 


图 10-28 淘宝 首页 搜索 杠 


单 击 首页 的 搜索 框 后 承 会 进入 到 搜索 界面 ， 搜 索 界 面 的 搜索 框 与 首页 的 搜索 框 是 不 同 的 元 系 ， 
需要 重新 对 搜索 界面 的 搜索 框 进行 信息 截取 ， 如 图 10-29 所 示 。 在 搜索 框 中 输入 商品 的 关键 词 ， 并 
单 击 搜索 框 右 侧 的 “搜索 ”按钮 就 能 搜索 相关 的 商品 信息 。 搜 索 杠 和 “搜索 ”按钮 的 定位 以 
resource-id 为 例 ， 实 现代 码 如 下 : 
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# 输入 搜索 内 容 

text = ' 玩 转 Python WEE ' 

resourceld = 'com.taobao.taobao:id/searchEdit" 
driver.find element by id(resourceId).send keys (text) 


E 反击 搜索 按钮 


resourceld = "'com.tà3obao.taob3o:Td/searchDtn' 
driver.find element by :id(resourceld) .cU:ck t) 


w (0) RelatmeLayout [0,90][1080,234] 
(0) ImageView {返回 上 一 页 } [0,102][168,222] 
v (1) LinearLayout [168,120][885,204] 

(0) EditText: 毛 衣 情 向 [213,120][744,204] 

(1) TextView:zd [5755 [744,120][840, 204] 
站 (2) Button, 搜 索 (13k) [912,120][1056,204] 

FF-a ru i M VEA (1) RelativeLayout [0,234][1080,2280] 
w (2) FrameLayout [0,234][1080,378] 
w (0 HorizontalScrollView [0.234111080.3781 


Er Lj chic tic eH SE 


£ 


Node Detail 
[index 0 
| text HR 
| resource-id com.taobao.taobao:id/searchEdit 
| class android.widget.EditText 


| package com.taobao.taobao 


| content-desc 


clickable 


enabled 
B meris 


focusable 


图 10-29 ”搜索 界面 的 搜索 杠 


搜索 所 得 的 商品 信息 显示 在 商品 界面 ， 在 该 界面 上 单 击 “ 销 量 ” 按 钮 ， 将 所 有 的 商品 按照 销 
量 的 大 小 重新 排序 ， 从 图 10-30 得 知 ，“ 销 量 ” 按 钮 的 属性 text 相 比 其 他 属性 较为 稳定 而 且 具 有 叭 
一 性 ， 因 此 该 按钮 以 属性 text 进行 定位 ， 代 码 如 下 所 示 : 

# 单 击 销量 排序 


sales ~ 'new UiSelector().description("4j&E")"' 
driver.find element by android uiautomator (sales).clickY() 


ii pythonixd S8 IE Eg 


(0) View [0,497][1080,498] 
(1) LinearLayout [36,378][719,498] 
(0) LinearLayout [36,378][263,498] 
v (1) LinearLayout [263,402][491,474] 
(0) TextView' 销 量 {销量 已 选中 } [335,402][419,474] 
(2) LinearLayout [491,402][719,474] 
(2) TextView: Ë {大 图 模式 } [719,378][839,498] 
(3) View [8B39,378][B40,498] 
Aam EO ELE Pytho FAY Balatnazsal awaa AAN 3X ZRIEABRD AOQAT 
TARR MEH SITAT 


€ 
Node Detail 
[ide 0 
| text 销量 
EERE 玩 转 Python | resource-id com.taobao.taobao:d/show text 
ANR STUPRO class android.widget.TextView 
"ue | package com.taobao.taobao 
"Sls | content-desc 锁 县 已 选中 


checkable 
ED EE UU Pythonis 
im i NELNEERIBIFP checked 


clickable 
enabled true 


a p 


图 10-30 ”商品 界面 的 “销量 ”按钮 
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我 们 对 排序 后 的 商品 进行 信息 采集 ， 将 每 条 商品 的 标题 和 价钱 写 入 到 一 个 新 的 字典 里 ， 再 将 
这 个 字典 存放 到 一 个 列表 中 。 从 图 10-31 看 到 ， 每 条 商品 以 RelativeLayout 元 紊 为 单位 ， 每 个 
RelativeLayout 元 泰 都 包含 了 商品 的 标题 、 价 钱 以 及 运费 等 信息 。 因 此 先 定 位 所 有 的 RelativeLayout 
元 了 系 ， 再 对 这 些 元 系 进 行 过 历 处 理 ， 每 次 过 历 获 取 相 应 的 标题 和 价钱 ， 有 具体 的 代码 如 下 : 
MyList - [] 
HB BEA 5 次 
for t in range(5): 
# 定 位 所 有 RelativeLayout 76 Z& 
resourceld - 'com.taobao.taobao:id/auction layout' 
info = driver.find elements by id(resourceId) 
check and dgdetavyt) 


138 Jj 8E RelativeLayout 元 素 
tor i in info: 


try 
MyDict = () 
# 获取 标题 
resourceId = 'com.taobao.taobao:id/title' 
title = i.find element by id(resourceId) 
MyDtccb]'titrle'] = title.text.strip() 
# 获取 价格 
resourceId = 'com.taobao.taobao:id/priceBlock' 
price I frond element by 1d(resobsrcetrd) 
MyDict['price'] = price.get attribute ("contentDescription") 


# 去 重 并 写 入 列表 
if MyDict nob in MyList: 
MyList.append (MyDict) 
except: pass 
# 滑动 屏幕 
swipeUp (1000) 


En siipythoni $8 FE rg 


(1) TextView: 玩 转 Python 网 阁 息 虫 Python 程序 设计 Py! 

(2) LinearLayout [496,664][1040,709] 

(3) View (EH ) [496,735][1022, 771] 

(4) View { 价 格 45 元 SABE EH} [496,795][1040,870] 

(5) LinearLayout [496,870][850,914] 

(6) TextView:... {更 多 } [950,842][1040,932] 

w (3) Relativelayout [4,954][1076,1410] 

(0) ImageView [40,972][460,1392] 
MARD 玩 特 Pyihon M Taia EN mithat i zz 
sje N E 978730 


:20 index 1 

text 玩 转 Python 网 阁 息 虫 Python 程 序 设计 Pyt.. 
正题 现 描 ide Python resource-id com.taobao.taobao:id/title 
ep We TUN class android.widget.TextView 
du package com.taobao.taobao 
515 content-desc 
checkable 
checked 
clickable 


enabled true 


.。 OER siPythonis 
zem S AH EFR P, 


图 10-31 商品 信息 的 标题 


在 每 个 元 系 之 间 加 入 延 时 等 每 ， 因 为 商品 的 搜索 和 销量 排序 部 是 从 淘宝 的 服务 器 获取 数据 ， 
这 个 获取 过 程 会 涉及 网 络 延 时 ， 所 以 加 入 延 时 功能 是 为 了 更 好 地 协调 目 动 化 操作 与 应 用 程序 的 啊 
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应 ， 使 两 者 尽量 保持 同步 执行 。 
除 此 之 外 ，Appium 在 启动 Android 应 用 的 时 候 ， 在 应 用 界面 中 都 会 出 现 系统 提示 框 ， 我 们 将 
提示 框 的 处 理 和 延 时 功能 都 定义 在 一 个 函数 里 实现 。 综 合 上 述 分 析 ， 整 个 项 目的 功能 代码 如 下 : 


from appium import webdriver 
import time 
# 延 时 与 检测 系统 提示 
der check and delay (ts=10): 
time.sleep (ts) 
try: 
driver.find element by id('android:id/buttonl'"}.click() 
except: pass 


# 获得 屏幕 坐标 x, y 
def getSize(): 
x =- driver.get window sixze()I'widEb"| 
y — driver.get window size()['height'] 
return dx. Y) 


# bid] E7827] 
def swipeUp(t): 
local -~ getSize() 
x inl ilocaliO] * 0-75) 
yl = int{local[l1] * 0:75) 
y2 = int(locall[ll] * 0.25) 
driver.swipe (xX, yl, X, v2. t) 


il name == * main '-: 

desired caps = { 
'platformName': 'Android', 
"nlatrormversiron'- "8.0", 
'deviceName': 'huawei-lld a120-30KNW18730002140', 
'appPackage': 'com.taobao.taobao', 
'appActivity': 'com.taobao.tao.homepage.MainActivity3', 
# 设置 中 文 输入 


'unicodeKeyboard': True, 

Urosctsevboard'- True, 
} 
driver = webdriver.Remote('http://localhost:4723/wd/hub', desired caps) 
+ 单 击 首页 搜索 框 
+ IER 20 秒 是 为 了 更 好 地 等 待 系统 提示 框 的 出 现 
check and delay(20) 
resourceld - 'com.taobao.taobao:id/home searchedit' 
driver.find element by id(resourceId).click() 
check and delay() 
E 单 击 搜索 页 的 搜索 框 
text = ' 玩 转 Python 网 络 爬 虫 ， 
resourceld = 'com.taobao.taobao:id/searchEdit' 
driver.find element by id(resourceId).send keys (text) 
check and delay() 
# 输入 搜索 内 容 
resourceld = 'com.taobao.taobao:1d/searchbtn' 
driver.tr:nd clement by 1jd[resourcelid) -click() 
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check and delay () 
# 单 击 销量 排序 
sales = 'new UiSelector().description("fE")' 
driver.find element by android uiautomator (sales).click() 
check and delay() 
# 数据 写 入 
MyList - [] 
for t an range(ts5): 
resourceld - 'com.taobao.taobao:id/auction layout" 
info = driver.find elements by id(resourceId) 
check and delay () 
For i in info: 


try- 
MyDict = {} 
# 获取 标题 
resourceId = 'com.taobao.taobao:id/title' 
title — T. Irneb element by OO nd) 
MyDict['title'"] = title.text.strip() 
# 获取 价格 
resourcelId = 'com.taobao.taobao:id/priceBlock' 
price = 1.find element by idí(resourceld) 
MyDict['price'] = price.get attribute ("contentDescript1ion™) 


# 去 重 井 与 人 列表 
1f MyDict not in MyList: 
MyList.append (MyDict) 
CXCODE- pass 
LER ESTE A 
swipeUp (1000) 
print (MyList) 
# 关闭 淘宝 App 


driver.quit () 


10.7 Æ p 4 


Appium Æ — AFI 5 FRAME, nf UHRIA REK ESES mM H, FF 1DS、 
Android 及 FirefoxOS 平台 ， 但 利用 Appium HS XE DLI RE tE n] SEI RHE TOR. 
在 Windows 系统 上 搭建 Appium 开发 环境 ， 需 要 安装 JavaJDK. Android SDK, Node.JS, 
Appium-Server 和 Appium-Client， 有 具体 的 安装 说 明 如 下 。 
Java JDK: 搭建 Java 的 开发 环境 。 
e Android SDK: Android 软件 开发 包 , 基于 Java 的 开发 环境 运行 , 可 以 在 计算 机 启用 Android 
模拟 器 或 者 连接 Android 手机 。 
© Node.JS: 搭建 Node.JS 的 开发 环境 。 
e Appium-Server: 安装 Appium 的 服务 器 ， 基 于 NodeJS 的 开发 环境 运行 。 
è Appium-Client: A Appium 的 客户 端 ， 编 写 并 运行 Appium 自动 化 代码 。 


Appium 与 Android 通信 连接 的 代码 是 相对 比较 固定 的 ， 在 连接 代码 中 根据 Android 系统 信息 
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进行 相应 的 修改 即 可 实现 连接 。Appium 设置 了 许多 连接 参数 ， 不 同 的 参数 负责 实现 不 同 的 功能 ， 
这 些 功 能 主要 是 对 Android 系统 进行 设置 ， 以 便 满 足 我 们 的 开发 需求 。 
Android 系统 的 元 系 碍 找 需要 信 助 软件 UI Automator Viewer 实现 ， 具 体操 作 步 又 如 下 : 

59014 将 手机 与 计算 机 进行 连接 ， 连 接 之 前 确保 手机 已 开启 USB 调试 模式 。 

步骤 02 4 唤醒 手机 屏幕 ， 当 手机 界面 出 现 USB 调试 提示 信息 时 ， 单 击 “ 确 定 ”按钮 。 

步骤 03 Á 打开 软件 UI Automator Viewer， 单 击 “DeviceScreenshot” 按 钮 捕捉 手机 当前 界面 。 

步骤 044 捕捉 成 功 后 , 在 软件 的 左 侧 出 现 手机 界面 的 截图 ,在 截图 里 单 击 某 个 元 素 可 获取 该 
元 素 的 信息 。 


Appium 对 元 系 的 定位 与 操作 是 在 Selenium 的 基础 上 进行 实现 和 扩展 , 具体 的 定位 与 操作 方法 
可 以 在 Python 安装 目录 \Lib\site-packages\appium\webdriver\webdriver.py XAF E A ii] 


Splash、Mitmproxy 与 Aiohttp 


11.1 Splash 动态 数据 抓 取 


Splash 是 具有 JavaScript 演 染 功能 并 市 有 HTTP API 的 轻 量 级 浏览 器 ， 同 时 还 对 接 了 Python 
的 网 络 引 擎 框架 Twisted 和 QT 库 ， 让 服务 具有 有 异步 处 理 能 力 ， 以 友 挥 webkit HIHA REJI. fu] OK 
说 ，Splash 是 一 个 市 有 API 接口 的 轻 量 级 浏览 右 ， 使 用 它 提供 的 API 接口 可 以 简单 实现 Ajax 动态 
数据 的 抓 取 。 其 实 它 与 Selenium 所 实现 的 功能 都 是 相同 的 ， 只 不 过 实现 的 过 程 和 原理 有 所 不 同 。 

Splash 的 安装 是 基于 Docker 应 用 容 露 引擎，Docker 文 持 三 大 操作 系统 : Linux. MacOS 和 
Windows。 本 书 以 Windows 安装 Docker 和 Splash 为 例 ， 首 先 下载 DockerToolbox， 这 是 Docker 的 
安装 包 ， 在 浏览 占 访 问 https://docs.docker.com/toolbox/toolbox install windows/ 并 单 击 “Get Docker 
Toolbox for Windows” 即 可 下 载 ， 如 图 11-1 所 示 。 


Install Docker Toolbox on Windows 


Legacy desktop solution. Docker Toolbox is for older Mac and Windows systems that do not 
meet the requirements of Docker for Mac and Docker for Windows. We recommend updating 


to the newer applications, if possible. 


Docker Toolbox provides a way to use Docker on Windows systems that do not meet minimal system 


requirements for the Docker for Windows app. 


If you have not done so already, download the installer here: 


图 11-1 下 载 Docker 
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Docker 的 安装 包 下 载 后 是 一 个 exe 文件 ， 这 是 Windows 的 应 用 程序 安装 包 ， 直 接 以 管理 员 身 
份 运 行 并 根据 提示 安装 即 可 ， 安 装 过 程 的 功能 选择 默认 即 可 。Docker 安装 完成 后 ， 会 在 电脑 果 面 
上 出 现 三 个 图 标 ， 如 图 11-2 所 示 。 


Oracle VM Docker Kitematic 
VirtualBox Quicksta... FATE) 


图 11-2 Docker MH FEIF 


我 们 单 击 Docker Quickstart Terminal 图 标 ， 从 而 打开 一 个 Docker Toolbox Terminal。 首 次 打开 
会 目 动 进行 一 系列 配置 , 直到 出 现 “ 乌 鱼 ” 的 字符 男 ， 同 时 记录 Docker 的 IP 地 址 : 192.168.99.100, 
如 图 11-3 所 示 。 


Io see how to connect your Docker Client to the Docker Engine running on this 3 
ker [oolboxXdocker-machine.exe env default 


T 
TETET 
PULS RU 


docker 1s configured to use the machine with IF 
"or help getting started, check out the docs at https://docs. docker. com 


start interactive sb 


$ 


图 11-3 运行 Docker 


RIJA Docker 之 后 , 在 图 中 的 “$ ”后 输入 各 种 Docker 命令 就 可 以 使 用 Docker。 通 过 Docker 
指令 来 安装 Splash， 输 入 安装 指令 docker run -p 8050:8050 scrapinghub/splash 并 按 下 回 车 键 ， 等 街 
Splash 安装 即 可 ， 直 到 出 现 “Starting factory.…..” 即 代表 Splash 安装 成 功 ， 如 图 11-4 所 示 。 
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$ docker run -p 8050:8050 scrapinghub/ splash 


2018 06 08:53: 03+0000 | [- 
2018 =-]]=060 03:53:05. 
2018-11- 06 O853:0 267963 


] Log opened. 
E 
|- 
2018-11-06 08:53:03. 369154 [- 
E 
[- 
E 


] Splash versioni å. Z 
> ] Qt 5.9.1, PyQt 5.9, WebKit 602.1, sip 4.19.3, Twisted 16.1.1, Lua 5.: 
EH ] Python 3.5.2 (default, Nov 23 2017, 16:37:01) [GCC 5.4.0 20160609] 
2018-11-06 D8: D3:0 3 . -70111 | | Op en files limit: 1048 BT 
2018-11-06 08:53:03.371655 [-] C 
2018-11-06 08:53:03.521281 [-] } 
|] 


[)StandardPaths: XDG RUNTIME DIR not set, defaulting to /tmp/runtime-root 
2018-11-06 08:53:05.534987 [-] proxy profiles support is enabled, proxy profiles path: /etc/splash/| 
2018-11-06 08:53:06. 150941 [-] verbosity=1 
2018-11-06 08:53:06. 151289 [-] slots=50 
2018-11-06 08:53:00. 151445 [-] argument cache max entries-500 
"i Et 
|-] 
[-] 
L-] 


an t bump open files limit | 
is started: [ Xvfb ， :988708647- ， -Screen ， EB IUD S s vr 


“ba3:00.] Web UI: enabled, Lua: enabled (sandbox: enabled) 
2:53:06. 152€ Server listening on Ù. 0. 0. 0:5050 
s5'53:Ub. ] 1ta ctartın "MEZ CIE GC] 


2018-11-06 08:53:00. Starting factory &twisted.web.server.Site object at ÜOxTffÜüc4T15TfÜ0» 


图 11-4 Z% Splash 


从 图 11-4 上 可 以 看 到 ，Splash 的 Server 地 址 为 0.0.0.0:8050， 这 个 地 址 是 Docker 的 本 地 下 地 
址 ， 如 果 我 们 要 在 Windows 中 访问 Splash, 应 将 Docker 的 本 地 地 址 改 为 实际 的 卫 地 址 , 即 图 11-3 
的 IP 地 址 : 192.168.99.100。 Œ Windows 的 浏览 右 访 问 http://192.168.99.100:8050/ 即 可 打开 Splash, 
如 图 11-5 所 示 。 


Q © 不 安全 | 192.168.99.100:805( 


oplash v3.2 


Splash is a javascript rendering service. Its a lightweight 
browser with an HTTP API, implemented in Python using " 
Twisted and QT. 2 assertlsplash:golargs.url)) 
assertlsplash:wait (0. 5)) 
een 
html = splash:htmlí], 


J] ü F ^ 
on mainlsplash, args) 


ges [Run live example] or use Adblock Plus rules to make rendering 2 png = splash:png(ü), 
har = splash:har(), 


text [Run live example 


in HAR format [Run live example] 


e 


Splash is free & open source. Commercial support is e 


available by ee 


Documentation es Source code 


图 11-5 打开 Splash 


如 果 电 脑 关 闭 了 Docker Toolbox Terminal 或 重 局 电脑 , 奢 想 再 次 运行 Splash, Œ Docker Toolbox 
Terminal 再 次 输入 指令 docker run -p 8050:8050 scrapinghub/splash 即 可 。 
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11.1.2 ”使 用 Splash 的 API 接口 


Splash 最 大 的 作用 是 可 以 执行 JavaScript 代码 ， 将 Ajax 动态 数据 直接 加 载 到 网 页 上 上， 无 需 开 
发 者 花费 时 间 和 精力 分 析 Ajax 请 求 ， 从 而 实现 相关 数据 的 抓 取 。 

Python 可 以 使 用 Splash 提供 的 API 接口 ， 从 而 实现 Python 与 Splash 之 间 的 交互 。Splash 提供 
多 种 API 接口 实现 不 同 的 功能 ， 本 书 只 列 出 一 些 较为 常用 的 AP 接口 及 使 用 方法 ， 代 码 如 下 : 


import requests 


headers = I 
'"uUser-Agqent': Mozilla/5.0 (X11; Linux x86 64) 
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/ 
279]-0-2554-116 Saftari/537-36*, 
} 
target url = 'htbpsc/yyv-dqaq.com/portal/srnqer list.html'" 


# render.html 获取 3s 加 载 后 的 网 页 信息 

url = "http:/7/192.168.99.100:8050/render.html? 
url-'-target url-*'&wait-5' 

response ~ requests- -get (url; headers headers) 

print (response.text) 


# render.png 获取 网 页 截图 
url = 'http://192.160.99. IDD:805D/ render. pig? 
url='+target url+'&width=500&height=500" 
response Tonnes geenr headers Headers] 
with open('image.png', 'wb') as f: 
f.write(response.content) 


# render.json 返回 请 求 数据 

uri =- "'htipz//182.168.99. T00: BOSD/ render. j5on? 
url-'-target url-'&wait-5' 

response — reguests get (url; headers -hoeuguers) 

print (response.text) 


execute 执行 Lua 脚本 
# 因为 Splash xf$ Lua 脚本 操作 
import requests 
from urllib.parse import quote 
Lnascript = '-*' 
function main (splash) 
return "Python" 
end 


# Lua 脚本 转 码 处 理 


url = 'http://192.168.99.100:8050/execute? 
lua source-' + quote(luaScript) 
response ~ regucsts-gett(url)j 


print (response.text) 


从 API 接口 的 使 用 方法 可 以 看 到 ， 疏 取 的 网 站 是 从 Splash 进行 加 载 ， 然 后 再 使 用 Requests T: 
块 对 Splash 发 出 请 求 , 从 而 获取 网 站 的 网 页 内 容 。 在 息 虫 开发 过 程 中 , API 接 口 render.html 和 execute 
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的 使 用 频率 相对 较 高 ， 特 别 是 execute， 它 对 于 复杂 的 网 站 也 能 满足 多 方面 的 需求 ， 比 如 编写 Lua 
脚本 获取 网 站 的 Cookies 和 设置 请 求 头 等 操作 。 由 于 Splash 的 对 象 方 法 较 多 ,本 节 只 列 出 爬虫 开发 
中 较为 常用 的 对 象 方法 ， 具 体 如 下 所 示 : 

1. go() 万 法 

该 方法 对 某 个 链接 发 送 HTTP 请 求 ， 模 拟 Get 和 Post 请 求 ， 方 法 定义 如 下 : 

ok, reason=splash.go{url,baseurl,headers,http method,body,formdata] 

【参数 解释 】 

url: 请 求 的 url. 
baseurl: 可 选 参数 ， 默 认 空 ， 表 示 资 源 加 载 相 对 路 径 。 
headers: TRAA, RUZ, ATARA. 
http method: 可 选 参数 ， 默 认为 GET， 支 持 POST HR. 
body: 可 选 参数 ， 默 认 空 ， 发 POST 请 求 的 表单 数据 ， 数 据 以 JSON 格式 表示 。 
formdata: 可 选 参 数 ， 黑 认 空 ， 发 POST 请 来 的 表单 数据 ， 数 据 以 Xwww-formn-urlencoded 
格式 表示 。 

方法 返回 变量 ok 和 reason， 前 者 是 返回 请 求 结果 ， 后 者 是 返回 HTTP 的 状态 码 。 如 果 ok 为 至 
则 说 明 网 页 加 载 的 时 候 出 错 ，reason 会 记录 相应 的 错误 信息 ， 反 之 则 说 明 网 页 加 载 成 功 。 

# Lua 脚本 

function main(splash, args) 


local ok,reason-splash:go["http-//httpbin.org/post", 
http method TPOST"; Bbdy-"name-Hupo-^ 


1f ok then 
return splash:htiml frt) 
end 
end 


2，wait() 方 法 
该 方法 用 于 控制 网 页 加 载 的 等 竺 时 间 ， 方 法 定义 如 下 : 


Dawn neecneg TEA 
【参数 解释 】 


e time: 等 待 的 秒 数 。 
* cancel onredirect: 可 选 参 数 ， 默 认 false, 表示 发 生 重 定向 就 停止 等 待 , 并 返回 重 定向 结果 。 
* cancel on error: 可 选 参 数 ， 默 认 false， 表 示 发 生 了 加 载 错 误 就 停止 等 待 。 


# Lua 脚本 
function main(splash, args) 
splash:go("http://httpbin.org") 
splash:wait (5) 
return ( 
html = splash:html(} 
} 


end 
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3. http get()7574 
该 方法 用 于 模拟 发 送 HTTP 的 GET 请 求 ， 方 法 定义 如 下 : 


response Plan- biip ge iuri berdera nil, Follow TO 
【参数 解释 】 

e url EAJ url 地址。 

€ headers: 可 选 参数 ， 默 认 空 ， 设 置 请 求 头 。 

e follow redirects: 可 选 参数 ， 是 否 居 动 自动 重 定向 。 

# Lua 脚本 


function main(splash, args) 
local treat - require("treat") 
local response = splash:http getí("http://httpbin.org/get") 
return f{ 
html = treat.as string(response.body), 
uri — response. url, 
statud — reosponse.sLratus 
} 


end 
4. http post() 方 法 
该 方法 模拟 发 送 HTTP 的 POST 请 求 ， 方 法 定义 如 下 : 


SC 
body-nil] 


【参数 解释 】 
url: 请 求 的 ulj, 
headers: TRA, RUZ, 设置 请 求 头 。 
follow redirects: 可 选 和 参数， 是 否 启 动 自动 重 定向 。 
body: 可 选 参数 ， 默 认 空 。 


# Lua 脚本 
function main(splash, args) 
local treat - require("treat") 
local response - splash:http post("http://httpbin.org", body-"name-Python") 
return I 
html = treat.as string(response.body), 
uri — response. url, 
statud — reSsponse-sratus 
} 


end 


5. get cookies() 方 法 
设 方 法 用 于 获取 当前 页 面 的 Cookies， 使 用 方法 如 下 : 
# Lua 脚本 


function main (splash) 
splash:go ("https: //www.baidu.com") 
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return ( 
# 返回 Cookies 信息 
splash:get cookies () 
} 


end 
6. add cookies() 万 法 
该 方法 用 于 为 当前 页 面 添 加 Cookies， 定 义 方法 如 下 : 


cookies = splash:add cookie[name, value, path-nil, domain-nil, 
expires-nil, httpOnly-nil, secure-nil)] 


e name: 当前 Cookies 的 名 称 。 

e value: 当前 Cookies 的 数值 。 

e path: 可 选 参数 ， 默 认 空 ， 代 表 Cookies 所 在 的 目录 。 

e domain: TŻ, RUZ, AA Cookies 所 在 的 域 。 

€ expires: 可 选 参数 ， 默 认 空 ， 代 表 Cookies 的 有 效 期 。 

e httpOnly: 可 选 参 数 ， 默 认 空 ， 设 置 Cookies x F X 44 JS 读 取 。 

e secure; 可 选 参数 ， 默 认 空 ， 设 置 Cookies 的 跨 域 传递 等 安全 问题 。 


# Lua 脚本 

function main (splash) 
# 如 有 多 条 Cookies， 则 多 次 使 用 add cookies () 添加 
splash:add cookie("sessionid", "12346"] 
splash:go ("https: //www.baidu.com/") 
return splash:himlt) 

end 


T. set custom headers()75;X 
该 方法 用 于 设置 请 求 头 ， 使 用 方法 如 下 : 
# Lua 脚本 


function main (splash) 
splash :set custom headers (i 
[user Agent | — Splash 
["Referer"] = "https://www.baidu.com/" 
}) 
splash:go("http://httpbin.org/get™) 
return ( 
splash:html() 
) 


end 


ER 7 48 $871 ie P2 IG HR rp ais HII. Nb). Splash 还 定义 了 很 多 对 象 方法 ， 有 
兴趣 的 读者 可 以 参考 Splash 的 官方 网 站 Chttps:;//splash.readthedocs.io/en/latest/) . 
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11.2 Mitmproxy 抓 包 


11.2.1 简介 及 安装 


Mitmproxy 是 一 个 支持 HTTP 和 HTTPS 的 抓 包 程序 , 实现 的 功能 与 Fiddler 抓 包 工具 相同 ， 只 
不 过 它 是 以 控制 台 的 形式 操作 。Mitmproxy 还 有 两 个 天 联 组 件 : Mitmweb 与 Mitmdump， 前 者 是 一 
个 基于 Web 的 Mitmproxy 接 口 , 它 可 以 清楚 地 观察 Mitmproxy 捕获 的 请 求 与 啊 应 ;后 者 是 Mitmproxy 
的 命令 行 接口 ， 它 可 以 帮助 我 们 对 接 Python 脚本 ， 使 用 Python 实现 监听 后 的 处 理 。Mitmproxy 34 
具备 以 下 功能 : 


(1) TEX HTTP 和 HTTPS 请 求 和 响应 ， 并 允许 动态 修改 请 求 和 响应 。 
(2) 保存 完整 的 HTTP 会话， 以 便 重 播 和 分 析 。 

(3) 可 重播 HTTP 会 话 的 客户 端 〈 即 手机 端 ) 。 

(4) 记录 所 有 的 HTTP 啊 应 。 

(50 反 同 代理 模式 ， 用 于 将 流量 转发 到 指定 的 服务 器 。 

(6) MacOS 和 Linux 系统 具有 透明 代理 模式 。 

(7) 使 用 Python 对 HTTP 流量 进行 脚本 操作 。 

(8) 用 于 拦截 的 SSL/TLS 证 书 是 即时 生成 。 


总 的 来 说 ，Mitmproxy 的 功能 十 分 强大 ， 而 在 爬虫 开发 中 ， 它 可 以 帮助 我 们 对 接 Python ALAS, 
怠 这 一 功能 已 经 能 帮助 我 们 解决 朴 虫 中 利 见 的 问题 ， 比 如 疏 取 手机 App 应 用 的 图 片 、 视 频 、 文 字 
内 容 等 。Appium 侧重 于 手机 的 自动 化 操控 ， 对 App 的 图 片 、 视 频 、 文 字 内 容 爬 取 相 对 困难 ， 而 
Mitmproxy 则 补 完 了 Appium 的 缺点 ， 可 以 说 Appium+Mitmproxy 是 手机 App EEF Æ IRPRISS o 

Mitmproxy 支持 三 大 操作 系统 : Linux, MacOs 和 Windows. EBL Windows 系统 为 例 ， 在 
CMD 窗口 下 输入 Mitmproxy 的 安装 指令 pip install mitmproxy， 即 可 完成 Mitmproxy 的 安装 。 


11.2.2 用 Mitmdump 抓 取 爱 奇 艺 视频 


完成 Mitmproxy 的 安装 后 ， 下 面 开 始 介 绍 Mitmproxy 的 使 有 用。 首先 我 们 将 一 全 安里 系统 的 手 
机 与 电脑 处 于 同一 个 局 域 网 内 ， 最 好 手机 与 电脑 都 是 连接 同一 个 无 线 网 络 。 在 电脑 上 打开 CMD fi 
口 ， 输 入 ipconfig 查看 当前 电脑 的 无 线 网 络 IP 地址， 如 图 11-6 所 示 。 

根据 电脑 的 无 线 网 络 IP 地 址 设置 手机 的 WLAN 代理 ， 以 华为 手机 为 例 ， 打 开 “ 设 置 ”->“ 无 
线 和 网 络 ”->“WLAN”, 长 按 当前 已 连接 的 无 线 网 络 并 选择 “修改 网 络 ”, 单 击 “ 显 示 高 级 选项 ”， 
将 代理 设置 为 手动 ,并 在 “服务 器 主机 名 ”和 “服务 器 端口 ” 分 别 输入 “192.168.1.102” 和 “8080”， 
如 图 11-7 所 示 。 


无 线 局 域 网 适 配 仑 


WLAN: 


连接 特定 的 DNS 后 级 
本 地 链接 IPv6 Hahk. 
IPv4 地 址 
子 网 掩 码 
ANR. 


服务 器 主机 名 


$118 


192.168.1.102 


LEE IN 


8080 


图 11-7 


Splash, Mitmproxy 5 Aiohttp 


设置 手机 的 WLAN 代理 


Liz 


然后 在 电脑 上 打开 CMD 窗口 ， 输 入 “Mitmweb” 并 按 回 车 ，Mitmproxy 就 会 运行 Mitmweb 
组 件 并 目 动 弹出 相关 的 网 页 。 当 我 们 在 手机 浏 砚 缉 上 打开 相关 的 网 页 ，Mitmweb 就 会 目 动 捕捉 手 
机 上 的 请 求 信息 与 响应 内 容 ， 如 图 11-8 所 示 。 


E mitmproxy ^ T 


| z se H El ene TITIE AING AACA &4d04 A H Jj lw 
Œ © 127.0.0.1:8081/*/flows/1832f926-4109-4454-a184-4e319dc2a44d; 


mitmproxy Start Options Flow 


s 5 人 3. 
Replay Duplicate Revert Delete 


Flow Modification 
Path Method 


Export 
Status Size 


F4 http://www.baid... GET 


nttip;//mtt.eve.m... POST 


http://mtt.eve.m... POST 
http://220.249.2... 
http://220.249.2... 
http://220.249 2... 


| htin //adfiltar imt 


Download 


E 


r^. 


Interceptio 


Time 


0 281ms 


109ms 


109ms 


129ms 


105ms 


102ms 


21g 


Abort 


ld 


GET http://www.baidu.com/ HTTP/1.1 


User-Agent 
d 8.8.0; LLD-AL28 Build/HONORL 
LD-AL268) 

Host www .baidu.com 

Connection Keep-Alive 

Accept-Encodin gzip 

E 


Request content missing. 


图 11-8 Mitmweb 的 抓 包 信息 


Dalvik/2.1.80 (Linux; U; Andrei ^ 
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通过 手机 的 WLAN 代理 实现 手机 与 Mitmproxy 连接 ， 下 面 我 们 开始 使 用 Mitmweb 3I UBL Sj 
艺 的 视频 信息 。 在 手机 浏览 器 上 输入 爱 奇 艺 的 网 址 ， 以 搞笑 视频 为 例 Chttp:/miqiyi.com/fun/) 。 


单 击 并 播放 某 个 视频 ， 在 电脑 的 Mitmweb 网 页 上 ， 将 请 求 信息 以 “Size” 进 行 降序 排列 ， 第 一 条 
数据 就 是 当前 视频 的 请 求 信 息 ， 如 图 11-9 所 示 。 


C  Q 127.0.0.1:8081/#/flows/27c0cc16-63ac-4c64-b3c3-f0e71ae77a35/request 


mitmproxy Start Options | Flow 


C & 9 个 x. > x 
Replay Duplicate Revert Delete Download Resume Abort 


E Flow Modification xport nt ption 


| Path Method Status Ims -< | | Request | Response Details 


| http://58... 2 3 | GET VUE UU UEENUENEN- 

| iyi.com/videos/v0/20181015/ca/47/f38adb3e65d5d3§{ 

f8b26d81f18c3b232.mp4?key-0281825a436bcfacid3899 

| http://im... 45.6kb 14; 71756020c31&dis k-24c3f064e7a937a860568f6aab6ce5 

L 95&dis t=1539624869&dis dz=CNC-GuansDong Foshana& 四 

http://m.... | 25.4kb | Cookie QC006-21511f12f2cb10055378e7fda9 

= http://m.... | nm 4b9782; QC112-251098cdd145d774e0 
0b28ecbf3d4276; QCO07-http*3AX2 

>| http://m.... 25 Akb F%2Fm.iqiyi.com%2Fv_19rrok4ms8.h 

tml; Qceon- 251098cdd145d774e80b2 


http://11 ... ) 229.9kb 


图 11-9 ”当前 视频 的 请 求 信 息 


分 析 视 频 的 URL ÆI, URL 地 址 必定 含有 “/r/baiducdncenc.inter.iqiyi.com/videos/vV0/” 的 内 容 。 
读者 不 妨 尝 试播 放 其 他 视频 ， 观察 它们 的 URL 地 址 是 否 具有 这 一 特征 。 那 么 ,只 要 URL 符合 这 一 


特征 ， 我 们 都 可 以 将 其 进行 视频 下 载 处 理 。 


视频 的 下 载 处 理由 Mitmproxy 的 Mitmdump 和 Python 共同 完成 。 首 先 我 们 创建 一 个 
download.py 文件 和 一 个 video 文件 来 ， 然 后 在 download.py 文件 里 定义 一 个 函数 response, KA 


数 为 flow， 代 人 码 如 下 : 


import requests 
# 文件 路 径 
path = r'F:\\video\\!’ 
num = 0 
def responsercrEiow)- 
global num 
# 视频 URL 的 特征 
target urls = r'/r/baiducdncnc.inter.1iqlyli.com/videos/vO/'" 
# 过 滤 重 复 的 URL 
repeat ELS ~ f] 
if LCargek uris in low. regust. url and Etow.request.nri not in repeat urls: 
repeat Urlts-append{(flow request -url} 
# 设置 视频 名 
filename = path + str(num) + '.mp4' 
# 使 用 request 获取 视频 URL 的 内 容 
# stream-True 作用 是 推迟 下 载 啊 应 体 直到 访问 Response.content 属性 
res ~ rogussts-dgetitiow.-requcst-url, sbtrcam-Truc) 


# 将 视频 写 入 文件 夹 
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with open(filename, 'ab') as f: 
f.write(res.content) 


E-TrInspt) 
print (filename + ' 下 载 完成 ') 
num += 1 
当 我 们 运行 Mitmdump 的 时 候 ，Mitmdump 会 目 动 捕捉 手机 的 HTTP 请 求 ， 然 后 将 捕捉 到 的 
HTTP 请 求 进行 处 理 ， 调 用 download.py 的 自 定 义 函 数 response, ER flow 代表 当前 的 请 求 信 


Mo X51] Mitmdump 之 前 ， 记 得 先 把 Mitmweb 关闭 ， 否 则 两 者 会 出 现 冲突 。 在 CMD 窗口 下 ， 将 
当前 路 径 切 换 到 download.py 所 在 的 路 径 ， 并 输入 Mitmdump 指令 即 可 局 动 ， 如 下 所 示 

F:\>Mitmdump -s download.py 

Loading script download.py 

Proxy server listening at http://*:8080 

Mitmdump 运行 成 功 后 , 在 手机 上 单 击 并 播放 东 个 视频 ， 当 前 播放 的 视频 就 会 日 动 下 载 并 保存 
到 video 文件 来 ， 如 图 11-10 所 示 。 


> 此 电脑 》 文 件 (F:) > video 


P^ 


图 11-10 视频 下 载 


上 述 代码 只 是 定义 了 函数 response， 这 是 用 于 处 理 手机 的 HTTP 请 求 。 此 外 ， 还 可 以 目 定 义 函 
Zi request， 该 函数 是 自 定 义 手 机 的 HTTP 请 求 ， 使 其 能 满足 开发 需求 。 一 般 情 况 下 ， 默 认 的 HTTP 
请 求 已 能 满足 大 部 分 的 开发 需求 。 

本 节 只 讲述 了 Mitmdump 的 使 用 ， 并 没有 结合 Appium 的 使 用 ， 读 者 可 以 结合 前 文 Appium 的 
内 容 ， 进 一 步 完 善本 节 所 实现 的 功能 。 


11.3 Aiohttp 高 并 发 抓 取 


11.3.1 简介 及 使 用 


Aiohttp 是 Python 的 一 个 第 三 方 网 络 编程 模块 ， 它 可 以 开 肥 服务 内 和 客户 病 ， 服 务 妆 也 就 是 我 
们 第 说 的 网 站 服务 器 ; 客户 疹 是 访问 网 站 的 API 接口 ， 第 用 于 接口 测试 ， 也 可 用 于 开发 网 络 爬 虫 。 
Aiohttp 是 基于 Asyncio 实现 的 HTTP 框架 ，Asyncio 是 从 Python 3.4 开始 引入 的 标准 库 ， 它 是 因 协 
程 的 概念 而 生 ， 这 是 Python 官网 推荐 高 并 发 的 模块 之 一 。 

由 于 Asyncio 具有 融 并 发 的 特性 ， 因 此 Aiohttp 继承 了 Asyncio 的 特性 ,使 得 Aiohttp 非常 适合 
开发 网 络 爬 虫 。 在 使 用 Aiohttp 之 前 ， 需 要 安装 Aiohttp 模块 ， 安 装 方式 可 以 使 用 pip 指令 完成 ， 也 
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可 以 目 行 下 载 whl 安装 包 Chttpsz//www.1fd.uci.edu/-gohlke/pythonlibs/Zaiohttp) ， 安 装 指 令 如 下 所 
示 : 


# pip 在 线 安装 aiohttp 

pip install aiohttp 

# 从 whl 安装 包 安 装 aiohttp 

pip install aiohttp-3.4.4-cp37-cp37m-win amd64.whl 


Aiohttp 模块 安装 完成 后 ， 在 CMD 窗口 进入 Python 的 交互 模式 ， 导 入 Aiohttp 模块 并 验证 模 
块 安装 是 否 成 功 ， 验 证 代码 如 下 : 


C: NUsersX000»python 
>>> import adohttp 
>>> alohttp. version 
"3.4.4" 


本 节 中 , 我 们 只 介绍 如 何 使 用 Aiohttp I] 27 P 3; JJ] Be » 通过 客户 疹 功 能 去 实现 网 络 扑 虫 的 开发 。 
首先 要 建立 一 个 会 话 对 象 session， 然 后 利用 会 话 对 象 session 去 访问 网 页 ， 基 本 用 法 如 下 : 


import aiohttp 
import asyncio 
async der hello(URL): 
async with aiohttp.ClientSession() as session: 
async with session.get(URL) as response: 
response = await response.text() 
print (response) 
if name == ' main ': 
URL = 'http://python.org' 
loop = asyncio.get event loop() 
loop.run until complete (hello (URL)) 


上 述 例子 是 使 用 Aiohttp 和 Asyncio 模块 访问 Python 官方 网 站 。 函 数 hello0 加 入 了 Python 内 
置 的 关键 词 async 和 await， 这 是 将 图 数 设置 为 异步 操作 ， 这 是 Aiohttp 的 使 用 方式 ; 而 函数 hello() 
的 调用 和 运行 需要 依 助 Asyncio 模块 ，Aiohttp 只 实现 网 站 的 访问 方式 ， 而 代码 的 执行 过 程 则 由 
Asyncio 模块 实现 。 

Aiohttp 在 友 大 HTTP 请 求 的 时 候 ， 还 可 以 设置 HTTP 请 求 的 请 求 头 、 超 时 、Cookies 和 代理 
IP。 请 求 关 和 代理 了 P 是 在 发 送 HTTP 请 求 的 过 程 中 分 别 设置 参数 headers 和 proxy, 而 超时 和 Cookies 
是 在 会 话 对 象 session 里 分 别 设 置 参 数 cookies 和 timeout 实现 。 具 体 的 设置 方法 如 下 : 

from aiohttp import ClientSession 

import aiohttp 

URL = *'http://httpbin.org' 

# 设置 请 求 头 

headers = {'content-type': 'application/json') 

async with ClientSession() as session: 


async with session.get(URL,headers-headers) as response: 
response = await response.text() 


# 设置 超时 ， 在 会 话 中 设置 超时 

timeout = aiohttp.ClientTimeout (total-60) 

async with ClientSession(timeout-timeout) as session: 
async with session.get(URL) as response: 
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response = await response.text() 


print (response) 
# 设置 超时 ， 在 请 求 中 设置 超时 
async with ClientSession() as session: 
async with session.get(URL,timeout-timeout) as response 
response = await response.text() 
print (response) 


+ UB Cookies 
cookies = ['cookies': 'working"! 
async with ClientSession(cookies-cookies) 
async with session.get(URL) as response: 
response = await response.text() 


print (response) 


as GERE PES 


E KEINE IP 
prosy — 'http://117.191:11. 72:8080! 
async with ClientSession() as session: 

async with session.get(URL,proxy-proxy) as response: 


response = await response.text() 


print (response) 
E 支持 代理 授权 
async with ClientSession() as session: 
= arohttp.BasicAuth('nuser', "'pass') 


prozy auth = 
async with session.get ("http://python.org", 


proxy-"http://proxy.com", 
proxy aucth-proxy auth) as resp: 
response = await response.text() 
print (response) 


Aiohttp 定义 了 多 种 HTTP 请 求 方法 ， 如 GET. OPTIONS. HEAD, POST. PUT. PATCH 和 
DELETE 方法 。 在 网 络 爬 虫 中 ， 使 用 最 为 频繁 的 是 GET 和 POST 方法 。GET 请 求 有 两 种 形式 ， 分 


别 是 不 带 参数 和 带 参数 ， 使 用 方法 如 下 ; 


# 不 市 参数 
URL = 'http://httpbin.org/get' 
async with ClientSession() as session: 

async with session.get(URL) as response: 


response = await response.text() 


print (response) 


Four 
# 在 URL 设置 参数 
URL = 'http://httpbin.org/get?key-python' 
async with ClientSession() as session: 
async with session.get(URL) as response: 


response = await response.text() 


print (response) 


# 设置 请 求 参 数 params 
URL = 'http://httpbin.org/get' 
params — i'wd'- 'python"'! 
async with ClientSession() as session: 

async with session.get(URL,params-params) as response: 
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response = await response.text() 
print (response) 


IRSD P, RIX POST 请 求 都 会 市 有 请 求 参 数 ， 参 数值 会 被 包 舍 在 请 求 体 中 ， 然 后 一 并 发 
到 网 站 服务 器 ， 参 数值 的 数据 格式 可 以 为 字典 、JSON、 字 符 串 和 字 节 流 ， 不 同 的 数据 格式 实现 不 
同 的 功能 ， 使 用 方式 如 下 : 


# 以 字典 格式 写 入 
URL - 'http://httpbin.org/post' 
data — {' key: "python'] 
async with ClientSession() as session: 
async with session.post(URL,data-data) as response: 
response = await response.text() 
print (response) 


# UL JSON 格式 写 入 
URL = 'http://httpbin.org/post' 
dáta — key "pybthon:'] 
async with ClientSession() as session: 
async with session.post(URL,json-data) as response: 
response = await response.text() 
print (response) 


# 以 字符 串 格式 写 入 
URL = 'http-//httpbin.org/postE' 
data = "python" 
async with ClientSession() as session: 
async with session.post(URL,data-data) as response: 
response = await response.text() 
print (response) 


# 以 字 节 流 格式 写 入 “上 存 文件 ) 
URL — 'http-//httpbin.org/post' 
data = {'file': open('Tog.Exr',; 'rb*y] 
async with ClientSession() as session: 
async with session.post(URL,data-data) as response: 
response = await response.text() 
print (response) 


不 管 是 GET 还 是 POST 请 求 ， 最 终 都 要 从 请 求 中 获取 相应 的 啊 应 内 容 ， 从 上 述 例子 看 到 ， 咖 
应 内 容 可 以 使 用 text0 方 法 获取 。 除 此 之 外 ,Aiohttp 还 定义 了 多 种 获取 啊 应 内 容 的 方法 , 如 下 所 示 : 
# 设置 编码 格式 


response = await response.text (encoding-'utf-8') 
# 以 字 节 流 格式 返回 

response = await response.read() 

# 以 JSON 格式 返回 

response = await response.json() 

E 获取 啊 应 状态 码 

status=response.status 

# 获取 啊 应 的 请 求 头 

headers=response.headers 

# 获取 URL 地 址 


uri responsc-urt 
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综 上 ，Aiohttp 的 使 用 方法 与 Requests 有 相似 之 处 ， 而 且 能 轻松 实现 高 并 发 慌 虫 开发 。 有 关 
Aiohttp 的 使 用 ， 读 者 可 以 得 看 官方 文档 Chttps://aiohttp.readthedocs.io/en/stable/client.html) 。 


11.3.2 Aiohttp FARER MAHET 


在 本 章节 中 ， 我 们 通过 一 个 简单 的 案例 来 深入 了 解 Aiohttp 的 应 用 ， 案 例 实 现 过 程 如 下 : 


(1) 让 取 对 象 是 起 点 小 说 网 的 24 小 时 热 销 榜 。 
(2) 数据 清洗 会 使 用 第 三 方 模块 BeautifulSoup4 实现 。 
(3) 数据 将 以 CSV 文件 进行 存储 。 
数据 清洗 和 数据 存储 的 知识 要 点 会 在 后 续 的 章节 详细 讲述 ， 本 章 只 做 简单 的 介绍 。 由 于 项 目 
需要 使 用 BeautifulSoup4 模块 , 因此 在 开发 环境 中 安装 该 模块 ,安装 方式 可 使 用 pip 在 线 安装 即 可 ， 
打开 CMD 窗口 并 输入 安装 指令 : 


pip install beautifulsoup4 


下 一 步 分 析 24 NE A A g ZU. fEDU aU) P) Cwww.qidian.com/rank/ 
hotsales?page-1) 并 打开 浏览 器 的 开发 者 工具 ， 点击 Network 选项 卡 的 Doc 标签 , 如 图 11-11 所 示 。 


^www.gidian.com/rank/hotsales?page- 1 
ABE miis 


[2 2011 /最 . 小 24) Em, x» lE 操 推 观 檬 第 一 -J Die Xi. , RE || J 一 各 光荣 的 教师 ， 脑 ; 每 
中 条 出 了 一 个 昼 税 的 贸 书 证 。 只 达 他 看 过 的 林 西 ， 起 论 人 还 是 物 ， ARAE HI, 


TENE 
最 新 重新 第 一 干 六 百 五 十 七 章 天 涯 让 贤 【 第 三 更 ， 第 56294 加 更 】 Tres 


e . Sources Network Performance Memory X Application Security Audits 


: wm “= LJ Group by frame Preserve log Disable cache | Offline Online M 


Hide data URLs All | XHR JS CSS Img Media Font [Ex 


WS Manifest Other 
X Headers Preview Response — Cookiess Timing 


552|«1i data-rid="2"> 
553 «div classs"book-img-box"? 
554 ¿span classz"rank-tag no2"»2«clte»«/cite»«/span» 
«a hrefz"//book.gidian.com/info/ 1904179514" target="_blank" data-eidsz"gd C39" data-bidsz"18084179514"»«img srce"//bookcover. 
556 «/div? 
557 ¿div classs"book-mid-info"» 
«h4»«a href-"//book.gidian.com/info/1004179514" target="_blank" data-eid-"qd C40" data-bid-"1004179514" OBRI RIE</a></h4> 
«p class-"author"? 
«img srcze"//gidian.gtimg.com/gd/images/ico/user.f22d3.png"»«a classz"name" hrefz"//me.gidian.com/authorIndex.aspx?2idz4 
/p> 
class-"int 


(20178 5:20 4E 海外 点 推 双 榜 第 一 ] 张 悬 穿越 民办 ， 成 了 一 名 放 荣 的 教师 ， 脑 海中 移出 了 一 个 神秘 全 图 书馆 。 只 要 他 看 过 的 东西 ， 无 这 人 还 是 
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图 11-11 网 页 结构 
分 析 网 页 结构 是 要 根据 爬虫 的 朴 取 方式 而 决定 ， 雇 取 方 式 主要 分 为 两 关 ， 说 明 如 下 : 
C1) 如 果 使 用 Selenium 或 Splash 爬 取 数 据 ， 网 页 分 析 需 要 在 开 友 者 工具 的 Elements 选项 卡 
里 进行 ， 因 为 Selenium 和 Splash 是 获取 网 页 加 载 后 的 内 容 。 


(2) 如 果 使 用 Requests 或 Aiohttp 这 类 模块 去 爬 取 数 据 ， 则 由 开发 者 工具 的 Network 选项 卡 
进行 网 页 分 析 ， 并 且 还 要 在 各 个 分 类 标签 里 找到 数据 所 对 应 的 请 求 方式 。 
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从 图 上 看 到 ， 了 网 页 上 的 小 说 信息 可 以 在 Doc 标签 里 找到 对 应 的 HTML 2883, 并且 Doc 标签 的 
请 求 地 址 与 浏览 万 的 地 址 栏 是 一 致 的 , 也 就 是 说 , 我 们 只 需 对 网 页 地 址 肥 送 HTTP 请 求 即 可 获取 小 


说 信息 。 


在 网 页 最 下 方 设 有 分 页 功能 , 当 点 击 不 同 的 页 数 按 钮 , 浏览 右 地 址 栏 的 URL 地 址 会 随 之 变化 。 
如 第 一 页 的 page=1、 第 二 页 的 page=2、 第 三 页 的 page=3*…… 以 此 类 推 ， 参 数 page 代表 分 页 功能 的 


页 数 ，URL 地 址 根据 页 数 的 不 同 来 显示 相应 的 小 说 信息 ， 如 图 11-12 所 示 。 


24 小 时 吉 稍 榜 超 点 中 文 网 x + 


> ex ü https://www.gidian.com/rank/hotsales?pa of | 


24 小 时 扫 销 榜 起 点 中 文 网 xo + 


x Li & https;//www.qgidian.com/rank/hotsales? 中 | 二 一 


24 小 时 染 销 榜 超 点 中 文风 x + 


e Q dà https;//www.qidian.com/rank/hotsales web [i 


图 11-12 URL 变化 规律 


从 上 述 的 分 析 得 知 ， 只 要 动态 改变 URL 地 址 的 参数 page 即 可 得 到 不 同 页 数 的 网 页 内 容 , 然后 
将 网 页 内 容 进 行 数据 清洗 并 提取 相应 的 小 说 信息 ， 最 后 将 小 说 信息 写 入 CSV 文件 。 因此， 项 目的 


功能 代码 如 下 所 示 : 


import asyncio 

from aiohttp import ClientSession 
# 导入 数据 清洗 库 Beautifulsoup 

from bs4 import BeautifulSoup 

# 导入 内 置 的 CSV 库 


import csv 


# 定义 网 站 访问 函数 getData， 将 网 站 内 容 返 回 
async def qetData(url, headers): 
# ”创建 会 话 对 象 session 
async with ClientSession() as session: 
# 发 送 GET 请 求 ， 并 设置 请 求 头 
async with session.get(url,headers-headers) as response: 
# 返回 啊 应 内 容 


return await response.text() 


def savaData(result): 
tor 1 an result: 

soup = BeautifulSoup(i, 'html.parser') 

find div = soup.find all('drv',class -'book-mid- info") 

for d an find div: 
name = d.find('h4').getText () 
author = d.find('a',class -'name').getText () 
update = d.find('p',class -'update').getText () 
# 写 入 CSV 文件 
csvFile — open('data.csv','a', Tewline="") 
writer = csv.wriLer(csvFile) 
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writer.writerow([name,author,update]) 
csvFile.close() 


# 定义 运行 函数 run 
def runi: 
for 1 in range(25)- 
# 构建 不 同 的 URL 地 址 并 传 入 函数 getData， 最 后 由 asyncio 模块 执行 
task-asyncio.ensure future (getData (url.format (1+1),headers)) 
# 将 所 有 请 求 加 入 到 列表 tasks 
tasks .append (task) 
# 等 竺 所 有 请 求 执行 完成 ， 一 并 返回 全 部 的 啊 应 内 容 
result = loop.run until complete (asyncio.gather(*tasks)) 
savaData (result) 
print (len (result) ) 


IE name == ' main ': 
headers = I 
"User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 

AppleWebKit/537.36 (KHTML, like Gecko) 
ChHrome/69-0-3497 1DO Satarr/53/5 36* 

} 

Easks — fi 

url = "https://www.qidian.com/rank/hotsales?page-(]" 

# 创建 get event loop 对 象 

loop = asyncio.get event loop() 

+ 调用 函数 run 


run () 
上 述 代码 中 ， 一 共 定 义 了 三 个 函数 和 运行 函数 man ， 各 个 函数 实现 的 功能 说 明 如 下 : 


(1) getData0 是 使 用 Aiohttp 模块 发 送 HTTP 请 求 ， 参 数 url 和 headers 分 别 代表 请 求 地 址 和 
请 求 涉 ， 函 数 将 啊 应 内 容 作 为 返回 值 。 

(2) savaData0 是 将 啊 应 内 容 进 行 数据 清洗 处 理 ， 从 数据 中 提取 小 说 信息 并 写 入 CSV 文件 ， 
参数 result 代表 排行 榜 所 有 分 页 的 网 页 内 容 。 

(3) runQz&il 25 次 来 构建 不 同 的 URL 地 址 ， 每 次 遍历 是 由 Asyncio 调用 函数 getData(), 
然后 传 入 当前 的 URL 地 址 ,生成 任务 对 象 task, 每 次 遍历 所 生成 的 任务 对 象 task 都 会 写 入 列表 tasks， 
最 后 由 Asyncio 调度 执行 任务 列表 , 将 全 部 的 执行 结果 ( 啊 应 内 容 ) 以 列表 返回 , 赋值 给 变量 result. 

(4) ZITA main 是 定义 请 求 头 、 格 式 化 URL 地 址 、 创 建 get event loop 对 象 和 调用 函 
Zi run0， 这 是 为 函数 getData0 和 run0 的 变量 进行 初始 化 处 理 。 

我 们 在 PyCharm 里 运行 上 述 代 码 ， 排 行 榜 25 个 分 页 所 讨 取 的 时 间 约 3 PEA, XEREZ 
率 归 功 于 Aiohttp 的 异步 并 发 特性 。 最 后 打开 data.csv 文件 并 得 看 排行 榜 的 小 说 信息 ， 如 图 11-13 
所 示 。 
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最 新 更 新 第 一 二 三 五 章 厦 蛮 -2018-11-26 16:50 
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RE 最 新 更 新 第 1310 章 754358 5 2018-11-24 2323 
齐 佩 甲 最 新 更 新 739 来 客 .2018-11-26 18:11 


图 11-13 “小 说 信息 


虽然 Aiohttp 的 卉 步 并 发 可 以 提高 朴 虫 的 爬 取 效 率 ,， 但 也 会 因为 爬 取 速 度 过 快 而 被 网 站 判 为 扑 
虫 机 占 人 ， 从 而 引 友 一 系列 的 反扑 虫 机 制 。 


11.4 7k xA h £4 
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(1)Splash 是 具有 JavaScript 泻 染 功能 并 带 有 HTTP API v. 级 浏览 右 , 同 时 还 对 接 了 Python 
的 网 络 引擎 框架 Twisted 和 QT Æ. HARK, Splash 是 一 个 带 有 API 接口 的 轻 量 级 浏览 器 ， 通 过 
使 用 它 提供 的 API 接口 可 以 简单 实现 Ajax ean, 
Splash 最 大 的 作用 是 可 以 执行 JavaScript 代码 ， 将 Ajax 动态 数据 直接 加 载 到 网 页 上 ， 无 需 开 
发 者 花费 时 间 和 精力 分 析 Ajax 请 求 ， 从 而 实现 相关 数据 的 抓 取 。 
Python 可 以 使 用 Splash 提供 的 API 接口 ， 从 而 实现 Python 与 Splash 之 加 的 交互 。Splash 提供 
多 种 API 接口 实现 不 同 的 功能 ， 本 书 只 列 出 了 一 些 较为 常用 的 API 接口 及 使 用 方法 。 
(2) Mitmproxy 是 一 个 支持 HTTP 和 HTTPS 的 抓 包 程序 ， 实 现 的 功能 与 Fiddler 抓 包 工具 相 
同 ， 只 不 过 它 是 以 控制 台 的 形式 操作 。 Mitmproxy 还 有 两 个 关联 组 件 : Mitmweb 与 Mitmdump; 前 
者 是 一 个 基于 Web 的 Mitmproxy 接口 ， 它 可 以 清楚 地 观察 Mitmproxy 捕获 的 请 求 与 啊 应 ;后 者 是 
Mitmproxy 的 命令 行 接 口 ， 它 可 以 帮助 我 们 对 接 Python 脚本 ， 使 用 Python 实现 监听 后 的 处 理 。 
Mitmproxy 还 具备 以 下 功能 : 


ŽA, HTTP # HTTPS 请 求 和 响应 ， 并 允许 动态 修改 请 求 和 响应 。 
保存 完整 的 HTTP 会 话 ， 以 便 重 播 和 分 析 。 

可 重播 HTTP 会 话 的 客户 闹 〈 即 手机 端 )。 

记录 所 有 HTTP 响应 。 

反 回 代理 模式 ， 用 于 将 流量 转发 到 指定 的 服务 器 。 

MacOS 和 Linux 系统 具有 透明 代理 模式 。 

使 用 Python 对 HTTP 流量 进行 脚本 操作 。 
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e 用 于 拦截 的 SSL/TLS 证 书 是 即时 生成 。 


总 的 来 说 ，Mitmproxy 的 功能 是 十 分 强大 ， 而 在 爬虫 开发 中 ， 它 可 以 帮助 我 们 对 接 Python 脚 
本 ， 就 这 一 功能 已 经 能 帮助 我 们 解决 候 虫 中 沼 见 的 问题 ， 比 如 扑 取 手机 App 应 用 的 图 片 、 视 频 、 
文字 内 容 等 。Appium 侧重 于 手机 的 自动 化 操控 ， 对 App 的 图 乒 、 视 频 、 文 字 内 容 爬 取 相 对 困难 ， 
而 Mitmproxy 则 补充 了 Appium 的 缺点 ， 可 以 说 Appium+Mitmproxy 是 手机 App EEF Ac RIS « 

(3) Aiohttp 是 Python 的 一 个 第 三 方 网 络 编程 模块 ， 它 可 以 开发 服务 站 和 客户 端 ， 服 务 端 也 

就 说 我 们 常 说 的 网 站 服务 右 ; 客户 冰 是 访问 网 站 的 API 接口 ， 常 用 于 接口 测试 ， 也 可 用 于 开发 网 
ZEE. Aiohttp 是 基于 Asyncio 实现 的 HTTP 框架 ，Asyncio 是 从 Python 3.4 开始 引入 的 标准 库 ， 
它 是 因为 协 程 的 概念 而 生 ， 这 是 Python 官网 推荐 高 并 友 的 模块 之 一 。 

Aiohttp 的 使 用 方法 与 Requests 模块 具有 相似 之 处 ， 而 且 Aiohttp 具有 异步 并 发 的 特性 ， 可 以 
轻松 实现 高 并 发 的 慌 虫 开 肥 。 


Jr ER Y AI 


12.4 验证 码 的 类 型 


在 开 友 疏 虫 时 ， 经 钊 会 遇 到 验证 码 识别 ， 在 网 站 中 加 入 验证 码 的 目的 是 加 强 用 户 安 全 性 和 近 
融 反 爬虫 机 制 ， 有 效 防 止 对 茶 一 个 特定 注册 用 户 用 特定 程序 骏 力 破解 的 方式 不 断 地 进行 登录 符 试 。 
在 此 简单 地 为 大 和 家 介绍 一 下 验证 码 的 种 类 。 


e 字符 验证 码 : 在 图 片上 随机 产生 数字 、 英 文字 母 或 汉字 , 一 般 有 4 位 或 者 6 位 验证 码 字 符 。 
通过 添加 干扰 线 、 添 加 嗓 点 以 及 增加 字符 的 粘连 程度 和 旋转 角度 来 增加 机 器 识别 的 难度 。 
但 是 这 种 传统 的 验证 码 随 着 OCR 技术 的 发 展 ， 能 够 轻易 地 被 破解 。 

e 图 片 验 证 码 : 图 片 验证 码 也 只 是 换 汤 不 换 药 ， 应 用 了 字符 验证 码 的 技术 ， 只 是 不 是 随机 的 
字符 ， 而 是 让 人 识别 图 片 ， 比 如 12306 的 验证 码 。 同 时 还 包括 一 些 将 广告 误 入 图 片上 面 的 
验证 码 ， 都 应 该 归属 到 这 一 类 。 

e GIF 动画 验证 码 : 主流 验证 码 都 提供 的 是 静态 的 图 片 ， 比 较 容 易 被 OCR 软件 识别 ， 有 的 

网 站 提供 GIF 动态 的 验证 码 图 片 ， 使 得 识别 器 不 容易 辨识 哪 一 个 图 层 是 真正 的 验证 码 图 
片 ， 在 提供 清晰 图 片 的 同时 ， ve 据 统 计 ， 动 画 GIF 验证 码 
的 防 垃圾 注入 可 以 达到 100%， 是 一 个 非常 有 效 的 验证 码 创 新 模式 。 同 时 ，GIF 动画 效果 
多 达 百 种 ， 也 可 以 增加 网 站 页 面 的 美观 效果 。 

e 极 验 验 证 码 : 这 是 极 验 验证 于 2012 年 推出 的 新 型 验证 码 ， 基 于 行为 式 验 证 技术 ， 通 过 拖 动 滑 
块 完成 拼图 的 形式 实现 验证 ， 是 目前 看 到 的 比较 有 创意 的 验证 码 ， 安 全 性 具有 新 的 突破 . 
手机 验证 码 : 通过 短信 的 形式 发 送 到 用 尸 手 机 上 面 的 验证 码 ， 一 般 为 6 位 的 数字 。 
语音 验证 码 : 也 属于 于 机 端 验证 的 一 种 方式 。 

e 视频 验证 码 : 视频 验证 码 是 验证 码 中 的 新 郁 ， 在 视频 验证 码 中 ， 将 随机 数字 、 字 母 和 中 文 
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组 合 而 成 的 验证 码 动 态 误 入 MPA, FLV 等 格式 的 视频 中 ， 增 大 破解 难度 。 验证 码 视 频 动态 
变换 、 随 机 响应 ， 可 以 有 效 地 防范 字典 攻击 、 穷 举 攻击 等 攻击 行为 。 视频 中 的 验证 码 字 母 、 
数字 组 合 ， 字 体 的 形状 、 大 小 ,速度 的 快慢 ， 显 示 效 果 和 轨迹 的 动态 变换 ， 增 加 了 恶意 抓 
屏 破 解 的 难度 . 其 安全 度 远 高 于 普通 的 验证 码 , 而 且 这 种 验证 码 形式 使 用 户 不 会 感到 枯燥 ， 
由 于 其 提高 了 机 器 识别 的 难度 ， 因 此 可 以 降低 用 户 识别 的 难度 ， 使 得 用 户 更 容 荔 辨认 . 


现在 大 多 数 网 站 还 使 用 字符 验证 但， 主要 用 于 用 户 登 录 。 有 些 网 站 数据 需要 用 户 登 录 才 有 访 
问 权 限 ， 疏 取 这 样 的 数据 时 ， 诈 先 要 完成 用 户 登 录 ， 获 取 访 问 权 限 才 能 继续 下 一 步 的 数据 爬 取 。 
对 于 用 户 登 录 设 置 验证 码 识别 的 网 站 有 三 种 解决 方案 : 


COD 人 工 识别 验证 码 。 将 验证 码 图 片 下 载 到 本 地 , 然后 靠 使 用 者 自行 识别 并 将 识别 内 容 输 入 ， 
程序 获取 输入 内 容 ， 完 成 用 户 登 录 。 其 特点 是 开发 简单 ， 适 合 初 学 者 ， 但 过 分 依赖 人 为 控制 ， 难 以 
KAMENE. 

(2) 通过 Python 调用 OCR 引擎 识别 验证 码 。 这 是 最 理想 的 解决 方案 ， 但 正常 情况 下 ，OCR 
准确 率 较 低 ， 需 要 机 器 学 习 不 断 提 高 OCR 准确 率 ， 开 发 成 本 相对 较 高 。 

(3) 调用 API 使 用 第 三 方 平台 识别 验证 码 。 开 发 成 本 较 低 ， 有 完善 的 API 接口 ， 直 接 调 用 即 
nf, RAIER E [BREUI SS UNS SR H e 


上 述 方案 是 目前 解决 验证 码 最 有 效 的 手段 ， 本 章 主要 介绍 如 何 使 用 OCR 技术 和 第 三 方 平 台 识 
别 验证 码 。 


12.2 OCR 技术 


OCR (Optical Character Recognition， 光 学 字符 识别 ) 是 指 电子 设备 〈 例 如 扫 摘 仪 或 数码 相机 ) 
检查 纸 上 打 印 的 字符 ， 通 过 检测 暗 、 亮 的 模式 确定 其 形状 ， 然 后 用 字符 识别 方法 将 形状 翻译 成 计算 
机 文字 的 过 程 , 即 针对 印刷 体 字 符 , 采用 光学 的 方式 将 纸 质 文档 中 的 文字 转换 成 为 黑 日 点 阵 的 图 像 
文件 ， 并 通过 识别 软件 将 图 像 中 的 文字 转换 成 文本 格式 ， 供 文字 处 理 软件 进一步 编辑 加 工 的 技术 。 

在 Python "P, 3x fr ORC 的 模块 有 pytesser3 和 pyocr， 其 原理 主要 是 通过 模块 功能 调用 OCR 
引擎 识别 图 片 ，OCR 引擎 再 将 识别 的 结果 人 返回 到 程序 中 ， 本 市 主要 以 pyocr 为 例 进行 介绍 。 在 
Windows 中 安装 pyocr 可 以 在 CMD 下 使 用 pip 安装 : 


pip install pyocr 


安装 pyocr 模块 之 后 ， 还 需要 安装 PIL 模块 ， 这 是 专门 用 于 处 理 图 片 的 模块 ，pyocr 依赖 该 模 
块 才能 完成 识别 ，pip 安装 如 下 : 


pip install Pillow 


完成 pyocr 和 PIL 模块 的 安装 后 ， 最 后 是 OCR 引擎 的 安装 ， 图 像 识 别 主要 由 OCR 引擎 完成 ， 
pyocr 只 起 到 一 个 调用 引擎 的 作用 。 

Tesseract-OCR 是 一 个 免费、 开源 的 OCR 引擎 ,读者 可 从 网 上 目 行 搜索 下 载 安 装 。 在 Windows 
系统 中 ，OCR 引擎 CTesseract-OCRO 可 通过 .exe 安装 包 安 装 。 值 得 注意 的 是 ， 在 安装 过 程 中 有 附 
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加 功能 选项 ， 如 图 12-1 所 示 。 
选项 “Tesseract development files" 是 OCR 开发 文件 , 可 以 在 这 个 引擎 的 基础 上 进行 二 次 开发 。 
各 安装 时 勾 选 该 选项 ， 则 安装 过 程 中 会 访问 谷歌 服务 器 下 载 开 发 文件 。 
Select components to install: Traning Tools 
Shortcuts creation 
[v] Registry setttings 


Œ [ ]Tesseract development Files 
* Language data 


D2cccirsb ir 


图 12-1 OCR 安装 选项 


选项 “Language data” 默 认 勾 选 英 文 ， 这 是 识别 文字 选项 。 如 果 要 识别 其 他 国家 的 语言 n E 
行 勺 选 ， 但 勺 选 其 他 语言 ， 在 下 一 步 安 装 时 需要 访问 谷歌 下 载 文件 。 除 此 之 外 ， 可 目 行 下 载 
chi sim.traineddata 文件 5 中文 简体 语言 包 ) , 然后 放 到 C AProgram Files (x86) Tesseract-OCR tessdata 
文件 夹 下 即 可 (上 述 路 径 是 OCR 引擎 默 认 的 安装 路 径 ) 。 

完成 上 述 安装 后 ， 就 能 在 Python 中 使 用 pyocr 实现 OCR 识别 了 ， 方 法 如 下 : 


(1) 创建 OCR 文件 夹 ， 在 该 文件 夹 下 创建 ocr.py 文件 和 图 片 picpng， 如 图 12-2 所 示 。 
(2) 打开 ocrpy 文件 ， 输 入 代码 : 


from PIL import Image 

from pyocr import tesseract 

# 使 用 PIL 打开 图 片 

im = Image.open('pic.png') 

# OCR 识别 

code = tesseract.image to string(im) 
print (code) 


(3) 运行 ocr.py， 运 行 结果 如 图 12-3 所 示 。 


这 台电 脑 "本 地 碰 盘 (E) 
E :\Python\python. exe E:/OCR/orc. py 


2334234 


"m 
2334234 


mem Process finished with exit code 0 


图 12-2 OCR 使 用 图 12-3 ”验证 码 识 别 结果 
在 实际 使 用 时 ， 验 证 码 图 片 不 会 是 一 张 日 后 黑 字 的 图 片 ， 往 往 会 挫 入 很 多 干扰 因素 ， 这 样 会 
导致 识别 出 来 的 结果 与 实际 相差 甚大 ,为 了 提高 准确 率 , 可 以 使 用 PIL 模块 对 图 片 进 行 简单 的 处 理 ， 
如 图 12-4 所 示 。 


qs CE 


图 12-4 Jv uA 
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图 12-4 分 别 是 带 红 色 和 赣 色 背景 的 验证 码 ， 而 且 背 景 颜色 带 有 其 他 杂 色 ， 如 果 使 用 上 述 代 三 
对 图 片 进行 识别 ， 识 别 结果 可 能 与 实际 完全 不 相符 。 此 时 ， 可 以 对 图 片 进行 简单 的 处 理 ， 去 掉 干 扰 
因素 ， 提 高 识别 准确 率 。 图 片 处 理 主要 由 PIL 模块 实现 , 将 图 12-4 中 的 验证 码 分 别 命 名 为 picl.png 
和 pic2.png 文件 ， 实 现代 码 如 下 : 


from PIL import Image 
from pyocr import tesseract 


pic list = ['pnrcl-png'.'prc?.png*"] 

ror 1 in pic lisi: 
im = Image.open (1) 
im = im.convert('L')4 图 片 转换 为 灰色 图 像 
# 保存 转换 后 的 图 片 
im.save ("temp .png") 
code = tesseract.image to string(im) 
print (code) 


PIL 模块 打开 图 片 并 生成 图 片 对 象 tm， 然后 转换 图 片 颜色 模 陈 ， 将 市 有 颜色 的 图 片 转换 成 灰 
上 度 模式 ， 形 成 黑 一 灰 一 日 的 过 渡 ， 如 同 黑 日 照片 ， 最 后 交 给 OCR 引 筝 识别 并 返回 识别 结果 。 


闫 色 模 式 是 将 某 种 颜色 表现 为 数字 形式 的 模型 ， 或 者 是 一 种 记录 图 像 颜 色 的 方式 ， 分 为 


RGB 模式 、CMYK 模式 、HSB 模式 、Lab HERAN EM A. ARRA. RIR EIR 
式 、 双 色调 模式 和 多 通道 模式 .。 


程序 运行 结果 如 图 12-5 所 示 。 


E:\Python\python. exe E:/OCR/orc.py 


Process finished with exit code 0 


图 12-5 No ubhnd yz 


本 书 只 介绍 简单 的 图 乒 处 理 ， 不 同 的 图 片 有 不 同 的 处 理 方法 ， 其 目的 都 为 所 高 OCR 识别 的 准 
确 率 。 除 此 之 外 ， 提 高 OCR 准确 率 还 可 以 对 OCR 引擎 进行 训练 和 学 习 ， 但 两 者 已 经 属于 人 工 智 
能 的 领域 ， 其 涉及 较 多 的 知识 点 ， 所 以 驶 不 一 一 讲解 了 。 


123 第 三 方 平台 


除了 使 用 OCR 识别 验证 码 之 外 ， 还 可 以 利用 第 三 方 平台 实现 验证 码 的 识别 。 到 目前 为 止 ， 这 
是 解决 验证 码 最 快 、 最 简单 的 途径 ， 而 且 有 完善 的 API 接口 ， 能 帮助 开发 者 完成 快速 开发 的 需求 ， 
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但 每 次 调 取 API 接口 需要 收取 少量 费用 。 
验证 码 识别 平台 主要 有 以 下 两 种 。 


e JEPE: 主要 由 在 线 人 员 识 别 验证 码 。 开 发 者 只 需 调用 平台 API 接口 ， 一般 在 10 秒 内 
返回 结果 。 识 别 错误 或 者 无 法 识别 不 收费 。 

e AI 开发 者 平台 : 主要 由 人 工 智 能 系统 识别 ， 准 确 率 取决 于 系统 的 智能 程度 。 调 用 API 接 
口 每 天 有 免费 使 用 次 数 ， 也 可 以 付费 使 用 。 目 前 ， 主 流 平台 有 百度 AI 和 腾讯 AI. 


本 书 以 打 码 平台 为 例 ， 在 浏 顺 右上 访问 http://www.yundama.com/， 注 册 账 号 后 充值 就 能 调用 
API 接口 识别 验证 码 ， 在 平台 上 提供 开发 文档 ， 代 码 如 下 : 


import json 
import time 
import requests 
class YDMHttp: 
apiurl = 'http://api.yundama.com/api.php' 
Username — 1i 
password — *'' 
appid = *'4055' 
appkey = 'c5e26dla207/df586d/aaec21522dd4406' 
def init (self, name, passwd, app id, app key): 
Schr username = name 
self.password = passwd 
self.appid - str(app id) 
seli .appkey — app key 


def request (self, fields, files=[]): 
response = self.post url (self.apiurl, fields, files) 
response = json.loads (response) 
return response 


def balance (self): 


data = { 
'method': 'balance', 
'username': self.username, 


'"password': selft.password, 
'appid': self.appid, 
'"appkecv': scit.appkey 
} 
response = Self reouest (data) 
if response: 
tf responsel'ret']| and response['ret'] < 0: 
return response] retr] 
else: 
return response ['balance"] 
else: 
return -9001 


def login (self): 
data = {'method': 'login', 'username': self.username, 
"Password': self.password, "'appid': self.appid, 
tappkey": seltr-appkevi 
response — Self. request (data) 
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if response: 


if response['ret'] and response[|'ret'] < 0: 
return response Fer] 
else: 


return response['uid'] 
else: 
return -9001 


def upload(self, filename, codetype, timeout): 
data ~ ['methHod':; 'uplioad', "username": seccr-username, 
"password'-: self.password, 'appid': self.appid, 
Rev Seli aáappkey, CODUGEVDGO'  SEF(CDUCUVYDCI, 
'E:meout'-* srtr(iEimeout)! 
file = "File: filename: 
response = self.request(data, file) 
if response: 
if response['ret'] and response['ret'] « O0: 
return responsel]'rec*] 
else: 
return response['cid'] 
else: 
return -9001 


def result(self, cid): 
data = ['method': 'result', 'username': self.username, 
"password'- self.password, "'appid'- self.appuvd, 
"appkeyt: selt-appkey, *crid'- stríicid) 
response — sclIr.requestidabka) 
teturon response and responsel Text TT or t 


der decode(selr, file name, code Lype, time ont): 
cid = self.upload(file name, code type, time out) 


Jf cid > D: 
For i 3p range(ü, time out): 
result = self.result{cid) 


和 
return cid, result 
else: 
time.sleep(1) 
rorurn 3003; '' 
else: 
rerurm cid, "'' 


def post url(self, url, fields, files=[])}): 
for key in files: 
files[key] = open(files[key], 'rb') 
res — requests.post(url, files-files, data-fields) 
return res.text 


def code verificate(name, passwd, file name, 
app id-4055, code type-1005, time out-60): 
# name: 云 打 码 注册 用 户 名 : passwd: HPW; file name: 需要 识别 的 图 片 名 
app key-'c5e26dla20/df586d/aaec21522dd446' 
yundama obj = YDMHttp (name, passwd, app id, app key) 
cur uid = yundama obj.login() 
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print ("uid: $s $ cur uid) 

rest = yundama obj.balance() 

print ('balance: $5* $ rest) 

# 开始 识别 图 片 路 径 、 验 证 码 类 型 ID、 超 时 时 间 〈 秒 )， 并 显示 识别 结果 

cid, result = yundama obj.decode(file name, code type, time out) 
print('cid: $5, result: $5' $ (cid, result) 

return result 


1f name == ot main *- 
# 云 打 码 注册 的 登录 用 户 名 (通过 用 户 注册 ) 
username ~ Xx 
EErEE 
password — '"xxx' 
rs — Code verrficate[nsername, password, "pincodcocpng-") 


EHDE: REEERE PH ERX, RAH code verificate0 方 法 函数 ， 传 入 已 注 
册 的 用 户 信息 和 需要 识别 的 图 片 即 可 。 


12.4 7k ph 45 


本 章 中 读者 应 重点 掌握 以 下 内 容 。 

1. 验证 码 

验证 码 的 作用 是 加 强 用 户 安全 性 和 提高 反 疏 虫 机 制 ， 有 效 防 止 这 种 问题 对 某 一 个 特定 注册 用 
户 用 特定 程序 暴力 破解 的 方式 不 断 地 进行 登录 尝试 。 

读者 要 了 解 解决 验证 码 的 以 下 几 种 方案 : 


d) 人 工 识 别 验证 码 ， 将 验证 码 图 片 下 载 到 本 地 ， 然 后 靠 使 用 者 自行 识别 并 输入 识别 内 容 ， 
程序 获取 输入 的 内 容 后 ， 用 户 完成 登录 。 其 特点 是 开发 简单 ， 适 合 初 学 者 ， 但 过 分 依赖 人 为 控制 ， 
难以 实现 批量 爬 取 。 

(2) 通过 Python 调用 OCR 引 警 识别 验 证 码 。 这 是 最 理想 的 解决 方案 ， 但 OCR 准确 率 较 低 ， 
需要 机 器 学 习 不 断 提 高 OCR 的 准确 率 ， 开 发 成 本 相对 较 高 。 

G) 调用 API 使 用 第 三 方 平台 识别 验证 码 。 开 发 成 本 较 低 ， 有 完善 的 API 接口 ， 直 接 调用 即 
可 ， 识 别 准 确 紊 高， 但 每 次 识别 需 收 取 小 额 费 用 。 

2. OCR 


OCR 是 指使 用 电子 设备 《例如 扫描 仪 或 数码 相机 ) 检查 纸 上 打 印 的 字符 ， 通 过 检测 暗 、 亮 的 
模式 确定 其 形状 ， 然 后 用 字符 识别 方法 将 形状 翻译 成 计算 机 文字 的 过 程 ; 即 针 对 印刷 体 字 符 ， 采 用 
光学 的 方式 将 纸 质 文档 中 的 文字 转换 成 为 黑 日 点 隆 的 图 像 文 件 , 并 通过 识别 软件 将 图 像 中 的 文字 转 
换 成 文本 格式 ， 供 文字 处 理 软件 进一步 编辑 加 工 的 技术 。 

Python 中 支持 的 ORC 模块 有 pytesser3 和 pyocr， 其 原理 主要 是 通过 模块 功能 调用 OCR 引擎 
识别 图 乒 ，OCR 引擎 再 将 识别 的 结果 返回 到 程序 中 。 

3. 验证 码 识 别 平 台 

例证 人 识别 平台 主要 有 以 下 两 种 。 


第 12 章 ”验证 码 识别 | 135 


(D 打 码 平台 : 主要 由 在 线 人 员 识 别 验证 码 。 开 发 者 只 需 调 用 平台 API 接口 ， 一般 在 10 秒 
内 返回 结果 。 识 别 错误 或 者 无 法 识别 不 收费 。 

(2) AI 开发 者 平台 : 主要 由 人 工 智 能 系统 识别 ， 准 确 率 取决 于 系统 的 乔 能 程度 。 调 用 API 
接口 使 用 ， 每 天 有 人 免费 使 用 次 数 ， 也 可 付费 使 用 ， 目 前 主流 平台 有 百度 AI 和 腾讯 AI. 


效 据 ; Hi 


13.4. 字符 串 操 作 


从 网 页 上 米 集 数据 后 ， 数 据 大 多 数 是 末 乱 无 草 的 ， 这 时 需要 对 采集 的 数据 加 工 清洗 ， 去 挥 数 
据 中 的 一 些 二 圾 数据 才能 得 到 我 们 所 需 的 数据 。 清洗 数据 有 三 种 弟 用 的 方法 : 字符 串 操作 、 正 则 表 
达 式 和 第 三 方 模块 库 。 三 种 方法 在 不 同 场 景 下 有 不 同 优势 ， 取长补短， 应 根据 实际 情况 选择 合理 的 
清洗 方法 ， 三 种 方法 同时 出 现在 一 个 项 目 也 是 常见 的 事情 。 

下 面 分 别 介绍 用 于 清洗 数据 的 字符 串 操作 : BWE EHE. ARAD H. 


13.1.1 &XHX 


格式 : 字符 串 [ 开 始 位 置 :结束 位 置 :间隔 位 置 ]。 

开始 位 置 是 0， 正 数 代 表 从 左边 位 置 开 始 ， 负 数 代 表 从 右边 位 置 开 始 ， 默 认 代表 从 0 开始 。 结 
束 位置 是 被 截取 的 字符 串 位 置 ， 空 值 默 认 取 a 到 字符 串 尾部 。 间 隔 位 置 默 认为 1， 截取 的 内 容 不 做 处 
理 ; 如 果 设 置 为 2， 就 将 截取 的 内 容 再 隅 一 取 数 。 示 例如 下 : 


# 字符 串 截取 

str = 'ABCDEFG' 

# 截取 第 一 位 到 第 三 位 的 字符 

prir (CARS MAP- MHI: ' € str[0:3:1) 

# 截取 字符 串 的 全 部 字符 

print (' 截 取 字 符 串 的 全 部 字符 : ' + str[::]) 

# 截取 第 七 个 字符 到 结尾 

print (' 截 取 第 七 个 字符 到 结尾 : ' + str[6::]) 

# 截取 从 头 开始 到 倒数 第 三 个 字符 之 前 

print( :截取 从 头 开 始 到 倒数 第 三 个 字符 之 前 : ' + str[:-3:1) 
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# 截取 第 三 个 字符 

print (' 截 取 第 三 个 字符 : ' + str[2]) 

# 截取 倒数 第 一 个 字符 

print (' 截 取 倒 数 第 一 个 字符 : ' + str[-1]) 

# 与 原 字符 串 顺 序 相 反 的 字符 串 

print (' 与 原 字 符 串 顺序 相反 的 字符 串 : ' + str[::-1]) 
# 截取 倒数 第 三 位 与 倒数 第 一 位 之 前 的 字符 

print (' 截 取 倒 数 第 三 位 与 倒数 第 一 位 之 前 的 字符 : | + str[-3:-1:]) 
# 截取 倒数 第 三 位 到 结尾 

print ("截取 倒数 第 三 位 到 结尾 : ' + str[-3::]) 

# XE BLA 

print('XÉFFE&HXi: '  str[:-5:-31]) 


13.12 ”替换 


格式 : TITE replace 4 8: 18 VJ Z2, EHÉRUBR VIA) 

要 注意 的 是 ， 使 用 replace 蔡 换 字符 串 后 仅 为 临时 变量 ， 需 重新 赋值 才能 保存 。 示 例如 下 : 
str = 'ABCABCABC' 

# 单个 内 容 蔡 换 

prinblistr.replaáce('c'. Wy) 

* 输出 内 容 : ABVABVABV 


# 字符 串 蔡 换 
print(str.replace('BC', "WY }) 
# 输出 内 容 : AWVAWVAWV 

# 蔡 换 成 特殊 符号 (空格 ) 
print(str.replace(['BC', T *y) 
# 输出 内 容 : AAA 


13.13 ”查找 


格式 : 字符 串 .find( 要 得 找 的 内 容 '[， 开 始 位 置 ,结束 位 置 ]) 

开始 位 置 和 结束 位 置 表示 要 会 找 的 范围 ， 夺 为 空 值 ， 则 表示 盒 找 所 有 。 找 到 目标 后 会 返回 目 
标 第 一 位 内 容 所 在 的 位 置 ， 位 置 从 0 开始 算 ， 如 末 没 找到 ， 束 返回 -1。 示 例如 下 : 

str = 'ABCDABC' 

# 查找 全 部 


Brint (tstr find( my) 
# 输出 内 容 : 0 


# 从 字符 串 第 4 个 开始 查找 
print (atr Find AT, 3)) 
# 输出 内 容 : 4 


# 从 字符 串 第 2 个 到 第 6 个 开始 得 找 ， 即 从 'BCDAB ' 中 查找 'Cc， 
print (str.find('C, 1, 5) 
# 输出 内 容 2 
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# 查找 不 存在 的 内 容 
print (str.-find{'E"})) 
# 输出 内 容 -1 


除了 使 用 find EK LEX E HR PART PIE). index 函数 也 能 实现 同样 的 功能 。 
字符 串 里 得 找 子 串 第 一 次 出 现 的 位 置 ， 关 似 于 字符 串 的 find 方法 ， 如 宋 碍 找 不 到 子 串 ， 驶 会 抛 出 


异 第 ， 而 不 是 返回 -1。 示 例如 下 : 


[S 


Str ABUBABCS 

# 查找 全 部 

print (str.index('A')) 
# 输出 内 容 : 0 


# 从 字符 串 第 4 个 开始 查找 

print (str.index('A', 3)) 

# 输出 内 容 : 4 

# 从 字符 串 第 2 个 到 第 6 个 开始 查找 
print (str.index{'C'", 1, 5) 
# 输出 内 容 2 

# 查找 不 存在 的 内 容 


print(str.index(['E*')) 
i 输出 内 和 容 : ValueError: substring not found 


1.4 分割 


格式 : 字符 串 .split(' 分 割 符 ,分 割 次 数 ) 


如 果 存 在 分 割 次 数 ， 隋 仅 分 割 成 “分 割 次 数 +1” 个 子 字 符 串 ;如果 为 宇 ， 束 默认 全 部 分 割 。 


分 割 后 ， 返 回 一 个 列表 关 型 数据 。 例 子 如 下 : 


str = 'ABCDABC' 

# 分 割 全 部 

print (str.split("B")) 

# 输出 内 容 ; ['A', 'CDA', 'C'] 
# 分 割 一 次 

print {str.split{'B", 13) 

# 输出 内 容 ， ['A', 'CDABC'] 


字符 串 操 作 是 数据 清洗 的 基本 ， 可 以 解析 HIML， 但 纯 字 符 串 解析 HTML 会 导致 代码 宛 余 ， 
不 便 维 护 ， 一 般 不 建议 这 样 操作 。 字 符 串 操作 主要 用 于 个 别 数 据 清 洗 ， 且 数据 具有 一 定 的 特性 。 如 


图 13-1 所 示 是 一 个 示例 。 
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C A 不 安全 | https://kyfw.12306.cn/otn/resources/Js/framework/station name.js?station versionz 1.9031 


var station names = Gbjb lLsxdb VAP|beijingbei|bjb|OGbjd lE 5:7K | BOP | bei jingdong | bjd l@bji JET BIPlbeijing|bj 28bjn JEH M |V 
F IZQ|guangzhounan | gzn |5@cqb| 量 庆 北 ICUW| chongaingbei |eqb| 68cqi | EIR | CQV camag ing cq | T Écan | EKPA | CRW| chongqi Ar cqn aage 
ERI SNH | shanghainan|shn 1lL@shq| 上 海 虹桥 AOH|shanghaihonggiao|shhg|12Gshx| Ll sXH|shanghaixi | shx | 130t jb | Kit |E| TBP | tian j 

iS TIP|tianjinnan tjn|168tjx| KEA |TXP tianjinxi|tjx| 1TGcch | IC 4&| CCT [Sine id CC pe cn| 长 春 南 |CET E nid NM ccn 198ccx 
东 | ICW | chengdudong | cdd | 218cdn | E fibi | CNW | ehengdunan | cdn | 228cdu 成 都 |CDW| ehengdu | ed | 23€esh | Jy ^ | CSQ| changsha |es| 248csn | 长沙 i 
Pa | FYS | fuzhounan fzn|2'0gra ea fH GIW | guiyang | gy 28ügzh 广州 |GZQ guangzhou|gz | 290gzx | 广州 四 |GX9| guangzhouxi | gzx | 308heb | IRRE 
M VAB|haerbinxi hebx|338hfe | 25H HFH|hefei |hf |348hfx | ^ ALP8 HTH hefeixi |hfx |350hhd | IE RIZ 5E 7K | NDC |huhehaotedong | hhhtd | 366hh 
东 | KEQ|haikoudong hkd|388hkd | 海口 东 |HMQ haikoudong|hkd 398hko | 海口 |VWUQ haikou |hk|40@hzd | HTJ 2R | HCH | hangzhoudong |hzd 418hzh |+ 
| | JNK| jinan| jn | 446 jnd | Ff B 2 jw jinandong| jnd 458 jnx iFPgplu|IGK| jinanxi| jnx |468lmi | 昆明 |KMM kunming km|47@kmx | Æ RH PE | KXM | k 


东 LVJ | E 3081zl IH LZ] lanzhou | 1z| 5181zx | 544] pf& | LAT | lanzhouxi |l zx |526nch| PS |NCG| nanchang |ne | 538n ji | m |N 
rc | 一 Ti "S up eec ow S| zs ume. e E r——— rr-inmnmini.L-.--..1, - NER; | RO i -: 


图 13-1 12306 各 个 城市 的 站 点 信息 


在 浏览 器 中 输入 “https:/Wkyfw.12306.cnyotmyleftTicketinit”， 在 开发 者 工具 一 Network 一 JS 标签 
中 可 找到 图 8-1 中 的 站 点 信息 。 根 据 内 容 分 析 ， 每 个 城市 有 5 个 信息 ， 从 市 有 “@” 的 特殊 字符 开 
始 ， 每 个 信息 之 间 用 “|” 隔 开 。 如 果 想 要 获取 第 二 个 和 第 三 个 信息 ， 可 以 根据 其 特性 以 “|” 进 行 
字 从 串 分 割 ， 代 人 码 如 下 : 


import requests 
der city name(): 
# 构建 请 求 头 
headers c SD USOP-AgGCHE > 
'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 ' 
'"(KHTML, like Gecko) Chrome/63.0.3218.0 Safari/5317.36', 
DHEUPCEOGI 
'"hbtps-//kytw.12306.cn/otn/logrn/1init"' 
url = 'https://kyfw.12306.cn/otn/resources/]j]s/framework/ 
station name.]s?statron vers)on-I.93031* 
city code - requests.get(url, headers-headers, verify-False) 
# 数据 使 用 字符 串 操作 处 理 
city code list = city Code .text .spl11t ("™|") 
city dict = {} 
for k, 1 in enumerate (city code list): 
Pr E! vn i> 
# 城市 名 作为 字典 的 键 ， 城 市 编号 作为 字典 的 值 
city dact[crty code Fistikli- city code listik: 2|-replace("* 1, 1) 
return (city dict) 
# 输出 处 理 后 的 数据 


print(city name()) 
除了 使 用 split 对 字符 串 进 行 分 割 之 外 ， 在 数据 赋值 之 前 还 要 使 用 replaceO 对 数据 进行 普 换 ， 


主要 清洗 数据 中 含有 空白 的 内 容 。 在 一 些 设计 不 规范 的 网 站 中 ， 其 HTML 中 的 数据 经 第 带 有 空白 
内 容 和 一 些 特殊 符号 ， 可 以 使 用 replace0 对 这 类 数据 进行 清洗 。 


13.2 ”正则 表达 式 


正则 表达 式 是 用 于 处 理 字 符 串 的 踢 大 工具 ， 拥 有 目 — 效 
率 上 可 能 不 如 字符 串 处 理 方 法 ， 但 功能 十 分 强大 。 得 荔 于 这 一 点 ， 在 提供 了 正则 表达 式 的 语言 


F1 


1E DU AA SX RAS e — FER. KAR TTE CIC UNE 吾 法 数量 不 同 ,但 不 用 担心 
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不 被 支持 的 语法 通常 是 不 常用 的 部 分 。 
学 习 正 则 表达 式 要 从 两 方面 着 手 ， 正 则 语法 和 正则 处 理 函数 。 


13.2.1 正则 语法 


正则 语法 也 称 元 字符 ， 符 合 正 则 规则 ， 通 剃 表 示 一 些 不 寻 和 钊 的 匹配 操作 ， 或 者 通过 重复 、 修 
改 匹配 意义 来 影响 正则 模式 的 其 他 部 分 。 旬 用 语法 如 表 13-1 所 示 。 
表 13-1 正则 表达 式 元 字符 和 语法 
实例 
意 字 符 〈 不 包括 换行 符 ) abc>>>'a.c>>> 结 果 为 : 

abc>>>' abc>>> 结 未 为 : 
'abce'7-'abce$' 45 JJ: 

匹配 前 一 个 元 字符 0 到 多 次 'abeccd'2—'abc*'--45 RJJ: 'abcecc' 
'abeecd'2-'abc >>> RN: 'abecc' 
abcccd>>>'abc?>>> 结 果 为 : 'abe' 
'abcced'2—'abc (31 d'»2245 573: 'abecced' 
'abeced'>>>'abe {2,31d'>>> 结 来 为 : 'abceccd' 


'abcee'>>>'abc (2,3) ? 52-45 4 7J: 'abee' 
符 进行 转 义 ， 或 者 指定 特殊 序列 ac>>>'a\c>>> 结果 为 : 'a.c' 


'abcd=>>>'a[bcl]>>> 结 果 为 : 'ab' 


'abed'2—'abc|acd'22-255 RA: 'abc' 


被 括 起 来 的 表达 式 作 为 一 个 分 组 。 findall 在 有 
组 的 情况 下 只 显示 组 的 内 容 

添加 注释 ， 括 号 内 为 注释 内 容 ， 特 殊 构 建 不 作 
为 分 组 

顺序 肯定 环视 , 表示 所 在 位 置 右 侧 能 够 匹配 括 | 在 字符 串 pythonretest 中 (?—test) 会 匹配 
号 内 正则 'pythonre' 

顺序 否定 环视 , 表示 所 在 位 置 右 侧 不 能 匹配 括 | 如 果 'pythonre' 右 侧 不 是 字符 串 ' test， 也 就 是 说 字 
号 内 正则 符 串 为 testpythonre， 那 么 Cltes0 会 匹配 ' pythonre' 
逆序 肯定 环视 , 表示 所 在 位 置 左 侧 能 够 匹配 括 
号 内 正则 

逆序 否定 环视 , 表示 所 在 位 置 左 侧 不 能 匹配 括 
号 内 正则 


'a123d'»»»'a(123)d' >=> R: '123' 


'abc123'>>>'abe(?#fasd)123'>>>4 R: 'abc123' 


与 0!.) 实 例 一 到 


Er … ) 实 例 一 致 
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正则 表达 式 特 殊 序 列 说 明 如 表 13-2 所 示 。 
X 13-2 ”正则 表达 式 特殊 序列 


只 在 字符 串 开 头 进行 匹配 
匹配 位 于 开头 或 者 结尾 的 空 字 符 串 
匹配 不 位 于 开头 或 者 结尾 的 空 字符 | 
匹配 任意 十 进 制 数 ， 相 当 于 [0-9] 


匹配 任意 空白 字符 ， 相 当 于 [tfvv] 

匹配 任意 非 空 日 字符， 相当 于 [^ en Mv] 

匹配 任意 数字 和 字母 ， 相 当 于 [a-zA-Z0-9 ] 

匹配 任意 非 数 字 和 字母 的 字符 ， 相 当 于 [^a-zA-Z0-9 ] 
只 在 字符 串 结尾 进行 匹配 


吕 匹配 任意 非 数字 字符 ， 相 当 于 [00-9 


13.2.2 ”正则 处 理 函 数 


Python 的 正则 模块 是 re, 该 模块 含有 多 种 正则 人 处理 函数 , 第 用 的 功能 函数 包括 : match, search 
findall 和 sub. 


1. re.match ER 2A 


re.match 国 数 答 试 从 字符 串 的 开头 开始 匹配 一 个 模式 ， 如 果 匹 配 成 功 ， 束 返回 一 个 匹配 成 功 的 
对 象 ， 人 否则 返回 None. 
使 用 方式 : re.match(pattern, string, flags-0) 
【参数 解释 】 
e pattern: 匹配 的 正则 表达 式 ,。 
e sting: 要 匹配 的 字符 串 。 
e flags: 标志 位 ， 用 于 控制 正则 表达 式 的 匹配 方式 ， 如 是 否 区 分 大 小 写 、 是 否 多 行 匹 配 等 。 


参数 flags 的 可 选 值 如 下 

e rel(reIGNORECASE): 忽略 大 小 写 。 

re.M(MULTILINE): $412 AX, POE" $5413. 

re.S(DOTALL): 此 模式 下 ,，'.' 的 匹配 不 受 限 制 ， 可 匹配 任何 字符 ， 包 括 换行 符 。 
re.L(LOCALE): 字符 集 本 地 化 ， 为 了 支持 多 语言 版 本 的 字符 集 使 用 环境 ， 比 如 转 义 符 \w。 
re.U(UNICODE): 使 预定 字符 类 NW NW Nb AB Ns NS d \D 取决 于 unicode 定义 的 字符 属性 
re.X(VERBOSE): 详细 模式 。 在 这 个 模式 下 ， 正 则 表达 式 可 以 是 多 行 的 ， hx EAT. 
并 可 以 加 入 注释 。 
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该 函数 匹配 之 后 ,得 出 一 个 match Xf RKA, 如 下 要 返回 结果 ,那么 可 以 使 用 group0 或 groupsO 
匹配 对 象 函 数 来 获取 匹配 后 的 结果 。 示 例如 下 : 


import re 


Lest — "This 1s Lhe Past one" 
res — ce me is (.*?) .*', tekl, re.M | re.l) 
1f res: 


print ("res.group() : ", res.qroupt() 

print("res-group(l) - ". res grouptt)) 

print ("res.group(2) : ". res.group (2)) 

print ("res.groups() - ". res.groups()) 
else: 

print ("No match!!") 


输出 结果 : 

res.group() : This 15 the last one 

res-group (1) : This 

和 亲人 有 本 和 

res.groups(}) : ('This", "七 he" ) 

对 于 代码 中 的 “(.*)”，“.” 代 表 [ 匹 配 任意 字符 ，“*” 代 表 [ 匹 配 前 一 个 字符 0 次 或 多 次 ， 两 
者 结合 匹配 出 “This”; 在 “is” 后 面 的 “(.*?) .*” 代 表 获 取 is 后 面 的 全 部 数据 ， 其 中 小 括号 匹配 
结果 ，“.*?” 用 于 匹配 一 个 单词 “the”， 而 括号 外 的 “.*” 用 于 匹配 任意 字 人 和 从， 但 不 返回 给 匹配 
结果 。 如 果 对 这 部 分 较 难 理解 ， 读 者 可 以 自行 比较 以 下 匹配 结果 : 


res — re match('(.*) 1s f(.*9?) ([.*)', texit, re.M | re.l) 
res-— re.match('([.*) 1s (.*) (.*)', exl, e M | re- 1) 
res — re.match('(.*) is (.*)', text, re.M | re Il 
res — re match('(.*) is (.*97)', texi, re.M | Te 


2. re.search EA ZA 


re.search 441638 ^E 41 8 JJ IB ES — XU JUUBORSD E, WRR RE None. 
使 用 方式 : re.search(pattern, string, flags-0) 
【参数 解释 】 
pattern: 匹配 的 正则 表达 式 ，。 
e string: 要 匹配 的 字符 串 。 
flags: 标志 位 ， 用 于 控制 正则 表达 式 的 匹配 方式 ， 如 是 否 区 分 大 小 写 、 是 否 多 行 匹 配 等 ， 
flags 可 选 值 与 match 一 样 。 
匹配 结果 跟 re.match 函数 一 样 ， 使 用 groupO0 和 groups0 方 法 来 获取 。 
将 re.match 的 例子 改 为 re.search， 得 出 的 结果 是 一 致 的 。search 和 match 的 使 用 方法 相似 ， 不 
过 两 者 运行 逻辑 不 同 ， 两 者 的 主要 区 别 : re.match 只 匹配 字符 串 的 开始 ， 如 果 字 符 串 开始 不 符合 正 
则 表达 式 ， 匹 配 就 会 失败 ， 函 数 返回 None; 而 re.search 匹配 整个 字符 串 ， 直 到 找到 一 个 匹配 的 字 
符 串 ， 否 则 也 返回 None. 
3. re findall £&2 
re.findall 函数 用 于 获取 字符 串 中 所 有 [匹配 的 字符 串 , 并 以 列表 的 形式 返回 。 AE rRIBI GR UU 
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下 几 种 情况 : 

当 正 则 表达 式 中 含有 多 个 圆 括号 时 ， 返 回 的 列表 元 素 为 多 个 字符 串 组 成 的 元 组 ， 而 且 元 组 
中 的 字符 串 个 数 与 括 写 对 数 相同 , 并 且 字 符 串 排放 顺序 跟 括号 出 现 的 顺序 一 致 , 字符 串 的 内 容 与 每 
个 括号 内 的 正则 表达 式 相 对 应 。 

(2) 当 正 则 表达 式 中 只 再 S EPE T 返回 的 列表 元 系 为 字符 串 ， 并 且 访 字符 串 的 内 容 与 
括号 中 的 正则 表达 式 相 对 应 。( 注 意 : 返回 的 列表 (字符 串 ) 只 是 圆 括号 中 的 内 容 ， 不 是 整个 正则 
表达 式 所 匹配 的 内 容 。) 

(3) 当 正 则 表达 式 中 没有 圆 括 号 时 ， 返 回 的 列表 中 的 字符 串 表示 整个 正则 表达 式 匹 配 的 内 容 。 

使 用 方式 : re.findall(pattern, string, flags=0) 

【参数 解释 】 


pattern: Ue Bed iE m EA X. 

string: 要 匹配 的 字符 串 。 

flags: 标志 位 ， 用 于 控制 正则 表达 式 的 匹配 方式 ， 如 是 否 区 分 大 小 写 、 是 否 多 行 匹配 等 ， 
flags 可 选 值 与 match 一 样 。 


匹配 结果 不 需要 使 用 groupO0 和 groups0 方 法 来 获取 。 示 例如 下 


import re 

# 匹配 字符 串 中 所 有 含有 'oo' 字符 的 单词 

# 当 正 则 表达 式 中 没有 圆 括号 时 ， 列 表 中 的 字符 串 表 示 整 个 正则 表达 式 匹配 的 内 容 
find value = re.findall('Nw*ooWNw*', 'woo this foo is too!) 
print(find value) 


# 获取 字符 串 中 所 有 的 数字 字符 串 

# 当 正 则 表达 式 中 只 带 有 一 个 圆 括 号 时 ， 列 表 中 的 元 素 为 字符 串 ， 

# 并 且 该 字符 串 的 内 容 与 括号 中 的 正则 表达 式 相 对 应 

find value = re.findall('.*?(\d+).*?', "'adsdl2343.]134d5645fd789") 
print (find value) 


# 提取 字符 串 中 所 有 有 效 的 域名 地 址 

# 正则 表达 式 中 有 多 个 圆 括号 时 ， 返 回 匹 配 成 功 的 列表 中 的 每 一 个 元 素 都 是 由 一 次 匹配 

# 成 功 后 ， 正 则 表达 式 中 所 有 括号 中 匹配 的 内 容 组 成 的 元 组 

add — 'https://www.net.com.edu//action-?asdfsd and other 
https://www.baidu.com//a-b' 

find value = re.findall(*((wt31X-) (Xw:X.) 54comledulcen|net))', add) 

print(find value) 


输出 结果 : 


| 

[Iq42 pp. qp Cuypdgt. *tggut] 

[('www.net.com.edu', Ws 'com.', 'edu'), ('www.baidu.com', "www." 
"bairdu.'- "com y] 


4. re.sub KAŽI 


re sub 函数 用 于 蔡 换 字符 串 中 的 匹配 项 ， 如 果 没 有 匹配 的 项 ， 则 返回 没有 匹配 的 字符 串 。 
使 用 方式 : re.sub(pattern, repl string, count-0, flags=0) 


F 
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e pattern: 匹配 的 正则 表达 式 ，。 

e repl: 用 于 替换 的 字符 串 ， 

e string: 要 被 替换 的 字符 串 。 

e count 替换 的 次 数 。 

e flags: 标志 位 ， 用 于 控制 正则 表达 式 的 匹配 方式 ， 如 是 否 区 分 大 小 写 、 是 否 多 行 匹 配 等 ， 
flags 可 选 值 与 match 一 样 。 


匹配 结果 不 需要 使 用 groupO 和 groups()77 12K 获取 。 示 例如 下 : 

import re 

# 将 手机 号 的 后 4 位 替换 成 0 

replace value = re.sub('Md(4)$', '0000', "13435423143") 
print(replace value) 

# 将 代码 后 面 的 注释 信息 去 掉 

replace value = re.sub('£f$.*S$', '', 'num = 0 fa number') 
print(replace value) 

输出 结果 : 

13435420000 

num = 0 

上 述 是 正则 处 理 函 数 的 闸 用 函数 ， 际 此 之 外 ， 正 则 处 理 函 数 还 有 : 

e re.split(pattern, string[, maxsplit]): 用 匹配 pattern 的 子囊 来 分 割 字符 串 。 

€ re subn(pattern, repl, string[, count]): 与 subO 函 数 一 样 ， 只 是 返回 结果 是 一 个 元 组 。 
€ reescape(string): 把 字符 串 里 除了 字母 和 数字 以 外 的 字符 都 加 上 反 斜 杆 。 

e re.finditer(pattern, string|, flags): 搜索 字符 串 ， 按 顺序 返回 每 一 个 匹配 结果 的 迭代 器 。 


在 学 习 正 则 表达 式 时 ， 难 点 是 如 何 根据 字符 串 内 容 编写 正确 的 正则 表达 式 ， 元 字符 之 间 不 同 
的 组 合 会 产生 不 同 的 结果 , 要 熟练 掌握 正则 表达 式 , 必须 熟知 每 个 元 字符 的 作用 以 及 正则 处 理 函 数 
的 使 用 方法 。 


13.3 ”BeautifulSoup 数据 清洗 


13.3.1 BeautifulSoup 介绍 与 安装 


BeautifulSoup 是 一 个 可 以 从 HTML 或 XML 文件 中 提取 数据 的 Python 库 。 其 功能 简 早 而 强大 ， 
容错 能 力 遍 ， 文 档 相 对 完善 ， 清 晰 易 恒 ， 有 具有 三 个 特性 : 


(1) BeautifulSoup 提供 了 一 些 简 单 的 方法 和 Python 术语 ， 用 于 检索 和 修改 语法 树 : 一 个 用 于 
解析 文档 并 提取 相关 信息 的 工具 包 。 

(2) BeautifulSoup 目 动 将 输入 文档 转换 为 Unicode 编码 ， 并 将 输出 文档 转化 为 UTF-8 编码 。 
不 需要 考虑 编 介 ， 除 非 输入 文档 没有 指出 其 编码 并 且 BeautifulSoup 无 法 目 动 检测 到 ， 这 时 需要 指 
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出 原来 的 编码 方式 。 
(3) BeautifulSoup 位 于 一 些 流行 的 Python 解析 口中， 比如 Ixml 和 htmlSlib 的 上 层 ， 这 允许 
使 用 不 同 的 解析 贫 略 或 者 御 牲 速度 来 换取 灵活 性 。 


BeautifulSoup 的 安装 涉及 第 三 方 的 扩展 ， 建 议 使 用 pip 安装 。 


pip install beautifulsoup4 


Beautiful Soup 支持 Python 标准 库 中 的 HTML 解析 器 ， 还 支持 一 些 第 三 方 的 解析 器 ， 常 用 的 
解析 器 有 lxml 和 html5lib. Ixml 的 安装 如 下 : 


pip install lxml 


Ikm 是 一 个 用 来 处 理 XML 的 第 三 方 Python 库 ， 它 的 底层 封装 了 由 C 语言 编写 的 libxml2 和 
libxslt， 并 以 简单 、 强 大 的 Python API 兼容 并 加 强 了 著名 的 ElementTree API. 

另 一 个 可 供 选择 的 解析 需 是 纯 Python 实现 的 html5lib， 这 是 一 个 Ruby 和 Python 用 来 解析 
HTML VHK, LFF HTMLS5 以 及 最 大 程度 羔 容 果 面 浏览 事 。 使 用 pip 安装 htmlSlib: 


pip install html5lib 


完成 上 述 安装 后 ， 在 CMD (终端 ) 下 验证 安装 是 否 成 功 ， 打 开 Python 交互 式 命令 行 (输入 
"Python" ”， 按 回 车 键 即 可 ) ， 输 入 代码 验证 即 可 : 

>>> import htm1511b 

>>> htmi5lib. version 

"09999999991 

>>> import lxml 

>>> import bs4 

>>> bs4. version 

"4.6.0"! 


FEREN AR HIE H CLTIDUSR Ri, X EEWR 13-3 所 示 。 
表 13-3 各 种 解析 器 的 比较 


解析 器 ”| 使 用 方法 
BeautifulSoup(html, 内 置 标准 库 ， 速 度 适中 ， Python3.2 版 本 前 的 文档 
"html.parser") 文档 容错 能 力 强 容错 能 力 差 


BeautifulSoup(html, : "UT a PO ga 
Ixml HTML dimi 速度 快 , 文档 容错 能 力 强 | 安装 C 语言 库 


BeautifulSoup(html, Ar arta m n Est: m 


BeautifulSoup(html, 容错 性 最 强 ， 可 生成 ul ; 
html5lib Fausse S ERR, TER | g, 扩展 差 
"html5lib") HTMLS 


EREET, EAKR. HERI HTML, 不 同 的 解析 器 因为 容错 性 不 同 会 
叶 致 不 同 的 结果 ， 夺 得 到 的 数据 与 实际 存在 友 寞 ， 出 现 数据 丢失 和 解析 出 来 的 数据 与 实际 不 相符， 
则 有 可 能 是 解析 露 在 解析 HTML 时 出 现 错误 ， 可 选择 不 同 的 解析 夯 对 错误 逐一 排 得 。 
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13.3.2 BeautifulSoup 的 使 用 示例 


下 面 通过 例子 说 明 如 何 使 用 BeautifulSoup， 以 MySoup.html 文件 内 容 为 例 : 


<I DOCTYPE html» 

<html> 

<head> 

<meta charset "ubt 85 

<title> Python</title> 

</head> 

<body> 

<p id-"python"» 

<a href="/index.html"> Python </a>BeautifulSoup 的 使 用 
</p> 

1p Class "myclass'* 

«a href-"http://www.-baidu:-com/ ">X @</a> 一 个 指 癌 百度 的 页 面 的 TORE。 
eps 

</body> 

</html> 


在 文件 MySoup.html 的 [n]— H 录 创 建 Soup py.py 文件 ， Soup py.py 的 代码 Lil IF: 


$ SLA BeautifulSoup 
from bs4 import BeautifulSoup 
# ER MySoup .html 文件 
Open file = open('MySoup.html', "r', encoding-'uEf-8*') 
# 将 Mysoup.html HARRE Html Content， 并 关闭 文件 
Html Content = Open file.read() 
Open file.close() 
t 使 用 html51ib 解释 器 解释 Html Content 的 内 容 
soup = BeautifulSoup(Html Content, "html5lib") 
# 输出 七 itle 
print ('html title is ' + soup.title.getText ()) 
# 查找 第 一 个 标签 p, 并 输出 
find p = soup.find('p', id="python™) 
print (the first <p> is ' + find p.getText (})) 
# 查找 全 部 标签 p, 并 输出 
find all p = soup.tind atii'p') 
for 1, k in enumerate (find all p): 
print ('the * + str(i + I) + ' p is ' + k.getText ()) 


运行 Soup py.py， 结 果 如 图 13-2 所 示 。 
html title is Python 网 络 朴 虫 实战 揭秘 


the first <p> is 
Python BeautifulSoup 的 使 用 


the 1 p is 


Python BeautifulSoup 的 使 用 


the 2 p is 


XÆ 一 个 指 同 白 度 的 页 面 的 链接 。 


图 13-2 BeautifulSoup 解析 HTML 
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代 人 码 运 行 时 ， 先 读 取 HTML 文件 的 内 容 ， 将 内 容 定 义 到 一 个 BeautifulSoup 对 象 中 ， 并 使 用 
htmlslib 解析 HTML 内 容 ， 然 后 使 用 Beautiful Soup 内 置 的 方法 找 出 标题 的 值 和 <p> 的 值 。 

前 面 的 例子 只 是 简单 介绍 了 Beautiful Soup 的 基本 用 法 ， 下 面 以 Python 的 交互 式 命令 行 演示 
Beautiful Soup 的 更 多 用 法 (在 CMD (终端 ) 中 输入 “Python”， 按 回 车 键 可 进入 Python 的 交互 式 
命令 行 ) 。 

d) 查找 全 部 标签 ， 代 码 如 下 : 


Html content = """chtml»«head»«title» Python</title></head> 
«p class-"title"»«b»Beautiful Soup HJ5É2]«/b»«/p» 

«p class-" study" >F JWH: nttp://blog.csdn.net/huangzhang 123 
<a hrer-"www xxx.com" classa "abec" id-"Lryl "web HFR </a>; 

<a href" www.ccc.com " class-"bcd" id "try WAER </a> and 
<a href" www-dadd.tom " class "erg" id- "iry A Loea: 
rp 

«p ctass-"OobthHer"»...«yp»s""" 


from bs4 import BeautifulSoup 

soup = BeautifulSoup(Html content, "html51lib") 

# 以 下 是 查找 某 标 签 的 方法 : 

E 获取 头 部 的 信息 ， 返 回 <head></head> 之 间 的 全 部 内 容 

soup.head 

# 获取 title 的 信息 ， 返 回 <title></title> 之 间 的 全 部 内 容 

soup.title 

# 这 是 一 个 获取 tag 的 小 窃 门 ， 可 以 在 文档 树 的 tag 中 多 次 调用 这 个 方法 。 

# 下 面 的 代码 可 以 获取 <body> 标 签 中 的 第 一 个 <b> 标 签 

# 也 就 是 说 ，soup 不 一 定 是 整个 html 的 内 容 ， 可 以 先 定位 某 部 分 ， 然 后 用 这 个 简洁 的 方式 获取 
# 返回 "<b>Beautiful Soup 的 学 习 </b>" 

soup.body.b 

t 直接 指定 标签 类 别 ， 返 回 第 一 个 标签 的 内 容 。 返 回 "<a href-"www.xxx.com" class-"abc" 
] uid — "tryl">web Jl /a»" 

soup.a 

# 获取 第 一 个 标签 a 

SO Cn alli at) 

#41<a href-"www.xxx.com" class-"abc" id "iry web A. /a>, 

<a href-" www.ccc.com " class-"bcd" id "try? "MANEH /a>, 

)-a hrei" www.aaa.com " class "efg" id "iry" ALBH /a-] 


变量 Html content 是 一 个 HTML 内 容 ， 其 格式 为 字符 串 ，Beautiful Soup 对 Html content 生成 
对 象 soup。 数 据 获 取 是 从 soup 对 象 获取 ， 比 如 获取 head FI title, PJJ soup.head 和 soup.title 直接 
获取 。 想 获取 某 个 标签 值 , 如 soup.a 返回 的 数据 格式 是 <class 'bs4.element. Tag», 这 是 Beautiful Soup 
的 格式 ， 代 表 第 一 个 标签 的 全 部 内 容 ， 寿 想 获取 其 标签 在 网 页 上 显示 的 内 容 〈 去 除 HTML 代码 ) ， 
则 可 通过 以 下 方法 : 

CD 通过 getTextO 获 取 标 签 的 值 。 例 如 ，soup.a.getTextO 返回 的 是 “web 开发 ”。 

(2 通过 str0 方 式 转换 为 字符 串 。 例 如 ，str(soup.a) 返回 的 是 “<=<a href£-"www.xxx.com" 
class-"abc" id="try1">web 开发 </a>”， 然 后 使 用 字符 串 截 取 获 取 的 数据 。 

(2) 获取 某 标签 的 属性 值 ， 在 上 述 例子 中 ，soup.a 可 以 获取 第 一 个 HTML 的 标签 a， 如 果 想 

获取 该 标签 里 面 的 属性 值 ， 沿 用 上 述 变 量 Html content， 实 现代 码 如 下 : 
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soup = BeautifulSoup (Html content, "html5lib") 

print (soup.a['class"]) 

# 输出 内 容 : 'abc' 

值得 注意 的 是 ， 在 HTML 中 ，class 属性 可 市 有 多 个 CSS FER, WR HTML 的 属性 含有 多 个 
CSS 样式 ，BeautifulSoup 会 以 列表 的 格式 返回 结果 。 例 子 如 下 : 

soup = BeautifulSoup({'<a href-"www xxx com" class-"abr bed"swebJDIc/as', 
"htmi5lib") 

print (soup.a['class"]) 

FWA: I abe, bad | 

(3) HEAR 

上 述 例子 只 能 返回 第 一 个 标签 a, 如 果 想 获取 第 N 个 标签 a RAE MRENE A He 

使 用 其 他 方法 实现 。 沿 用 上 述 变 量 Html content， 实 现 精 确定 位 标签 a， 方 法 如 下 : 


soup- Tind allita, 1d-" Fry") 

soup.find all ('a', class ="efg", id=" Ery3") 

Soup- iim alla hrel ~ e compile aaa") 

以 上 三 种 方式 都 可 以 定位 到 <a href" www.aaa.com " class=" elp" 1d-" try3" > ACE BE a 
这 个 标签。 


C) 第 一 种 是 通过 一 个 属性 定位 ， 只 要 是 标签 里 具有 的 属性 都 可 以 定位 到 。 
第 二 种 在 第 一 种 的 基础 上 增加 了 一 种 属性 ， 也 融 是 多 个 属性 一 起 定位 ， 这 样 更 加 精准 。 
(3) 第 三 种 是 通过 正则 表达 式 进 行 模糊 匹配 ， 这 个 适合 属性 多 变 时 使 用 。 


在 BeautifulSoup 中 ，find0 和 find all0 的 使 用 方法 一 样 。 两 者 的 区 别 在 于 : 


CD find all0 人 返回 的 结果 是 包含 一 个 或 多 个 元 系 的 列表 ; 而 find0 方 法 返回 的 是 第 一 个 符合 要 求 
的 结束 ， 格 式 为 字符 串 。 

右 find all0 没 有 找到 目标 ， 则 返回 空 列 表 ; 而 fnd0 方 法 找 不 到 目标 时 ， 返 回 None. 

(4) Beautiful Soup 文 持 大 部 分 的 CSS 选择 器 。 

CSS 样式 定义 由 两 部 分 组 成 ， 形 式 为 : [code] 选择 器 { 样 式 } [/code]。 

在 但 之 前 的 部 分 就 是 “选择 器 ”。“ 选 择 右 ”指明 了 个 中 “样式 ”的 作用 对 象 ， 也 就 是 “ 梯 
式 ” 作 用 于 网 页 中 的 哪些 元 系 。 

CSS 选择 器 主要 是 由 前 痛 的 CSS 编写 的 , 这 里 简单 介绍 一 下 BeautifulSoup 的 CSS 选择 右 的 用 
M 

e 通过 1d 查找 : soup.select("Ztry3"), 

e 通过 class 查找 : soup.select(".efg"), 

@ 通过 属性 查找 : soup.select(a[class="efg"])。 


上 述 三 个 方法 也 可 以 返回 <a href" www.aaa.com " class-"efg" id="try3"> 人 工 乔 能 </a> 这 个 标 

与 find all 实现 的 功能 一 样 。 

ae 在 爬虫 开发 中 担任 痢 数据 清洗 的 角色 ， 和 擎 握 上 述 使 用 方法 就 能 解决 绝 大 部 分 的 
网 站 数据 清洗 问题 。 
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13.4 Æ * »h 45 


AAEE JT A mE]. ERR Y BERAR AE. SHIPS TR UOI 14 : 
字符 串 操作 、 正 则 表达 式 和 第 三 方 模块 ( 库 ) 。 
币 用 数据 清洗 的 字符 串 操作 有 截取 、 蔡 换 、 碍 找 和 分 割 。 
AUR: 字符 串 [开始 位 置 : 结 束 位 置 : 间 隔 位 置 ]。 
TAA: 字符 串 .Teplace( 被 替换 内 容 ', ' 替 换 后 内 容 ')、 
查找 : 字符 串 .find( 和 要 查找 的 内 容 '[， 开 始 位 置 ， 结 束 位 置 ])。 
2 3|: 字符 串 .split( 分 割 符 ', 分 割 次 数 )。 
正则 表达 式 包 含 正 则 语法 和 正则 处 理 函 数 。 
e 正则 语法 : 也 称 元 字符 ,这 类 符号 代表 正则 规则 ， 通 常 表 示 一 些 不 寻常 的 匹配 操作 ,或 者 
通过 重复 、 修 改 匹 配 意义 来 影响 正则 模式 的 其 他 部 分 。 
e 正则 处 理 函 数 : Python 的 正则 模块 是 re， 该 模块 含有 多 种 正则 处 理 函 数 ， 功 能 函数 包括 : 
( 1) re.match(pattern, string, flags-0) 


e o e o 
4y «y 4 


| 


(2 ) re.search(pattern, string, flags=0) 

(3 ) re.findall(pattern, string, flags=0) 

( 4) re.sub(pattern, repl, string, count=0, flags=0) 
( 5) re.split(pattern, string[, maxsplit]) 

( 6) re.subn(pattern, repl, string[, count]) 

( 7 ) re.escape(string) 

( 8 ) re.finditer(pattern, string|, flags]) 


BeautifulSoup 是 一 个 可 以 从 HTML 或 XML 文件 中 提取 数据 的 Python 库 。 和 常用 的 数据 清洗 函 


数 如 下 。 
e 查找 全 部 标签 : soup.a， 和 返回 第 一 个 标签 a。 
o 获取 定位 元 素 (标签 ) 的 值 : soup.a.getIextO0， 获 取 第 一 个 标签 a 的 值 。 
e 获取 标签 属性 : soup.a[href]， 获 取 整 个 HTML 第 一 个 标签 a 的 href 属性 值 。 
。 精准 查找 ，find all0 和 find0. 


> 属性 定位 : soup.find all('a', id=" try3"). 
> 多 属性 定位 : soup.find all('a', class ="efg", id=" try3"). 
> 正则 表达 式 模糊 匹配 : soup.find all('a', href == re.compile("aaa")). 
e CSS 选择 器 。 
通过 id 查找: soup.select("#try3")。 
通过 class 查找 : soup.select(".efg"). 
通过 属性 查找 : soup.select('a[class-"efg"]"). 


> 
> 
> 


一 


文档 数据 存储 


14.1 CSV 数据 的 写 和 人 和 读 取 


常用 的 数据 存储 介质 有 文件 、 关 系 式 数 据 库 和 非 关 系 式 数据 库 。 文 本 文档 存储 适用 于 有 具有 时 
效 性 的 数据 ， 如 股市 行情 、 商品 信 息 和 排行 榜 信息 等 , 这 类 数据 具有 动态 变化 性 质 , 非特 殊 要 求 下 ， 
建议 存放 文件 。 

Python 标准 库 自 带 CSV 模块 ， 不 用 上 自行 安装 。 数 据 写 入 CSV 的 代码 如 下 : 

import csv 


E EFTEX. MHA csv 文件 ， 若 不 存在 ， 则 新 建文 件 
E 夺 不 设置 newline="''， 则 每 行 数据 会 隔 一 行 空白 行 


Ov open Cay best.coc5swv'. 0 newlrne- t) 
# 将 文件 加 载 到 csv 对 象 中 
writer = csv-wriberi(csvtile) 


# 写 入 一 行 数 据 

writer.writerow(|'VEX', "FE. "HE I) 

# 多 行 数 据 写 入 

data = | 
(]NP', '18', "138001380000" ), 
(NY', '22', 138001380000") 

] 

writer.writerows (data) 

# 关闭 csv 对 象 


csvrile.closet) 

tj A CSV 时 使 用 open 函数 打开 文件 ，open 函数 最 好 设置 参数 “newline” 为 衬 ， 否 则 每 次 与 
入 一 行 数 据 ， 数 据 之 间 职 会 军 出 一 行 宪 日 行 。 将 打开 的 文件 对 象 加 载 到 CSV 对 象 中 ， 写 入 数据 分 
为 单行 写 入 和 多 行 写 入 ， 对 应 函数 分 别 是 writerow 和 writerows。 

谈 取 CSV IF, ERAS reader 和 DictReader， 两 者 都 是 接收 一 个 可 友 代 的 对 象 ， 返 回 一 
^E XR. reader 函数 是 将 一 行 数 据 以 列表 形式 返回 ; DictReader 国 数 返 回 的 是 一 个 字典 ， 字 和 典 的 
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值 是 单元 格 的 值 ， 而 字典 的 键 则 是 这 个 单元 格 的 标题 〈 列 头 ) 。 代 人 码 如 下 : 


import csv 

csvfile = open('csv test.csv', 'r'j 
# 以 列表 形式 输出 

reader = c5sv.reader(csvtrile) 

# 以 字典 形式 输出 ， 第 一 行 作为 字典 的 键 

# reader = csv.DictReader (csvfile} 
rows = [row for row in reader] 
print (rows) 


上 述 代码 用 于 获取 全 部 数据 ， 如 采 要 获取 东 行 数据 ， 束 可 以 循环 全 部 数据 ， 再 对 每 行 数据 做 
一 个 判断 ， 判 断 是 否 符合 嗣 选 条 件 ， 代 码 如 下 : 


import csv 


csvfile = open(['csv test.csv', "'r')| 
# 以 列表 形式 输出 
reader = csv.reader (csvf1ile) 


tor row 1n reader: 
f "小 P' in row: 
print (row) 


# 以 字典 形式 输出 ， 第 一 行 作为 字典 的 键 


# reader = csv.DictBeadericsvtila) 
F for row in reader: 

# if puwpUNERS tI — Isque 

i print (row) 


要 获取 茶 行 数据 ， 使 用 不 同 函 数 会 有 不 同 的 判断 方式 ， reader EK AOR x [H] 的 是 列表 ， DictReader 
Yan td, CERRO Brie. PIACHHHUAUUEdMAA— E. CSV 的 存储 相对 较为 简单 ， 而 
且 实 用 性 比较 强 。 


14.2 Excel 数据 的 与 和 人 和谈 取 


Python 操作 的 Excel 库 有 xlrd、xlwt、pyExcelerator 和 openpyxl。 其 中 ，pyExcelerator 只 支持 
2003 版 本 ，openpyxl 只 支持 2007 版 本 ，xlrd 文 持 Excel 任何 版 本 的 读 取 ，xlwt 文 持 Excel 任何 版 
本 的 写 入 。 

为 了 版 本 的 兼容 性 ， 大 多 数 开发 人 员 选 择 使 用 xlrd 和 xlwt 操作 Excel。xlrd 和 xlwt 的 安装 如 
Te 


pip install xlrd 
pip install xlwt 


完成 安装 后 ， 在 Python 交互 式 命令 行 输入 验证 代码 : 


>>> import xlwt 
>>> import ird 
>>> xlrd. VERSION 
x rest onn d 

>>> xlwt. VERSION 
AETA 
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Excel 的 写 入 相对 比 CVS 复杂 ，Excel 可 以 实现 设置 数据 格式 、 合 并 单元 格 、 设 置 公 式 和 插入 
图 片 等 功能 。 使 用 xlwt 实现 上 述 功能 的 代码 如 下 : 


import xlwt 

t Ha T Excel 文件 

wb = xlwt.Workbook() 

# 新 建 一 个 Sheet 

ws = wb.add sheet('Python', cell overwrite ok-True) 

# 定义 字体 对 齐 方式 对 象 

alignment = xlwt.Alignment () 

# 设置 水 平方 同 

i HORZ GENERAL, HORZ LEFT, HORZ CENTER, HORZ RIGHT, HORZ FILLED 
i HORZ JUSTIFIED, HORZ CENTER ACROSS SEL, HORZ DISTRIBUTED 
alignment.horz = xlwt.Alignment.HORZ CENTER 

# 设置 垂直 方 回 

# VERT TOP, VERT CENTER, VERT BOTTOM, VERT JUSTIFIED, VERT DISTRIBUTED 
alignment.vert = xlwt.Alignment.VERT CENTER 


# 定义 格式 对 象 
Stylo =~ xiwL-XPSLylert) 
style.alignment = alignment 


# 合并 单元 格 write merge (开始 行 ， 结 束 行 ， 开 始 列 ， 结 束 列 ， 内 容 ， 格 式 ) 
ws.write merge(0, 0, 0, 5, "Python 网 络 爬 虫 !， style) 


# 写 入 数据 wb .write ( 行 , 列 , 内容) 
tor 1 in range(2, 17): 
for k in ranget5): 
ws.write(i, k, 1+k) 
# Excel AX xlwt.Formula 
ws.write(i, 5, xlwt.Formula ('SUM({(A'+str(1+1)+':E'"+str(i+1)+')"'})) 


t EARR. insert bilmap(img; x; y, xl, yl, scale x 0.8, scale yl) 

# 图 片 格式 必须 为 pmp 

# x 表示 行 数 ， y 表示 列 数 

# xl XEM er LIRE PERITI DR SS 

# yl 表示 相对 原来 位 置 同 右 偏 移 的 像素 

t scale xi Scale y 缩放 比例 

ws.insert bitmap ('E:\\test.bmp', Jj. 1, 2, 2, scale x=0.3, scale y=0.3) 


# 保存 文件 


wb.saveí('filo.x!is"') 

代码 依次 实现 的 功能 如 下 。 

e 设置 字体 水 平 重 直 居中 : 该 功能 实现 共 分 为 两 步 ， 第 一 步 是 定义 XlwtAlignmentO 对 和 象 ， 分 别 
设置 其 水 平方 向 和 重 直 方向 的 属性 ; 第 二 步 是 定义 XlwtXFStyleO 对 象 ,将 设置 好 的 Alignment() 
对 象 赋予 XFStyle0 对 象 。 在 写 入 数据 的 时 候 ，XFStyle0 对 象 作为 write merge0 方 法 的 参数 。 

@ 合并 单元 格 : 主要 由 write merge( 开 始 行 , 结束 行 , 开始 列 , 结束 列 ， 内 容 , 格式 ) 方 法 实现 。 

e 生成 表格 并 计算 每 行 总 和 : 通过 上 藤 套 循环 生成 5 行 6 列 的 表格 ， 第 1 到 第 5 列 的 数据 写 入 
由 write( 方 法 实现 ; 第 6 列 数据 是 累计 来 和 ， 由 Excel 自 带 公式 实现 。 

e 插入 图 片 : 图 片 插入 是 由 insert bitmap(img, x, y, xl, yl, scale x=0.8, scale y=1) 实 现 的 ， 图 
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片 格式 必须 为 bmp， 否 则 无 法 插入 并 提示 错误 。 
把 数据 写 入 Excel 的 整体 思路 如 下 : 


C) xlwt 创建 生成 临时 Excel 对 象 。 

(2) 添加 WorkSheets 对 象 。 

G) 单元 格 的 位 置 由 行列 索引 决定 ， 索 引 从 0 开始 。 

(4) 数据 写 入 主要 由 write merge0 和 write0 实 现 ， 两 者 分 别 是 合并 单元 格 再 写 入 和 单元 格 写 入 。 
(50 设置 数据 格式 是 在 写 入 (write merge0 和 write0) 的 数据 中 传 入 参数 style. 


运行 程序 ， 结 果 如 图 14-1 所 示 。 


1 
2 
3 
4 
5 
T 一 | 
8 
9 


图 14-1 Æ Excel 中 写 入 数据 


除 此 之 外 ，xlwt 还 可 以 设置 单元 格 背 景 闫 色 、 添 加 单元 格 边 杠 、 设 置 单元 格 遍 宽度 、 设 置 字 
体 凑 色 和 数据 类 型 等 ， 由 于 篇 幅 较 大 ， 本 书 就 不 一 一 讲解 了 。 
接 看 读 取 Excel 数据 ， 由 xlrd 模块 实现 ， 我 们 以 上 述 已 生成 的 Excel 为 读 取 目标， 代码 如 下 : 


import xlrd 

wb = xlrd.open workbook('file.xls') 
i 获取 Sheets 总 数 

ws count = wb.nsheets 
print('Sheets MX: ', ws count) 
# 通过 索引 顺序 获取 Sheets 

i ws = wb.sheets () [0] 

di ws = wb.sheet by index(0) 

# 通过 Sheets 名 获取 Sheets 

ws = wb.sheecr by name ("Python") 
+ 获取 整 行 的 值 〈 以 列表 返回 内 容 ) 

row value = ws.row Values (3) 
print ("$ 4172448: ', row value) 
# 获取 整 列 的 值 〈 以 列表 返回 内 容 ) 

row col = ws.col values (3) 
print ('D 列 数据 ; ', row col) 
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# 获得 所 有 行列 
nrows = ws.nrows 
ncols = ws.ncols 


print (HITA: ', nrows, ', AIA: ', ncols) 


# 获取 某 个 单元 格 内 容 cell ( 行 ， 列 ) 
cell F3 = ws.cell(2, 5).value 
print('F3 ji: ', cell F3) 


# 使 用 行列 索引 获取 某 个 单元 格 内 容 
row F3 = ws.row(2)[5].value 
col F3 = Ww3.col (5}) [2| .value 
print ("n 内容 2 ', row F3, "EX PES COL F3) 


运行 程序 ， 结 果 如 图 14-2 所 示 。 


Sheetsň M: 1 
S HTA:  [3.0, 4.0, 5.0, 6.0, 7.0, 25.0] 
DAIMI: DU, "7, 5.0, 6.0, 7.0, 8.0, 9.0] 


DTE: T 5 EET: b 
F3 内 容 : 20.0 
RAZ: 20.0 RAZ: 20.0 


图 14-2 M Excel 中 读 取 数据 
读 取 Excel 的 数据 思路 大 致 如 下 : 
(1) xlrd 生成 Workbook 对 象 ， 并 指 回 Excel 文件 。 
(2) 选择 Workbook 里 某 个 WorkSheets 对 象 。 


(3) 获取 WorkSheets 里 数据 已 占用 的 总 行 数 和 总 列 数 〈 革 个 单元 格 数据 ) 。 
(4) 循环 总 行 数 和 总 列 数 ， 读 取 每 一 个 单元 格 的 数据 。 


14.3 Word 数据 的 写 人 人 和谈 取 


将 数据 存储 在 Word 文档 中 ， 一 般 以 文章 、 新 闻 报 道 和 小 说 这 类 文字 内 容 较 长 的 数据 为 主 。 
Python 读 写 Word 需要 第 三 方 库 扩展 支持 ， 使 用 pip 安装 : 

pip install python-docx 

模块 安装 后 ， 验 证 模块 是 否 安装 成 功 ， 在 Python 交互 式 命令 行 输入 验证 代码 : 


>>> import docx 
>>> docx. version 
a E s E eT 


下 面 通过 例子 来 讲述 如 何 将 数据 写 入 Word 文档 ， 代 码 如 下 : 
# 数据 写 入 
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from docx import Document 
from docx.shared import Inches 
# 创建 对 象 
document = Document () 
E 添加 标题 ， 其 中 “0” 代 表 标 题 类 型 ， 共 有 4 种 类 型 ， 具 体 可 在 Word 的 “开始 ”一 “样式 ”中 查看 
document.add heading('Python J[Érm', 0) 
# 添加 正文 内 容 并 设置 部 分 内 容 格式 
= document.add paragraph('Python J[É:mJTA-"') 
设置 内 容 加 粗 
-runs[0].bold = True 
添加 内 容 并 加 粗 
.add run(' 数 据 存 储 -') .bold = True 
添加 内 容 
-add runi'wWord--") 
添加 内 容 并 设置 字体 斜体 
p.add run(' 和 存储 实例 。"') .italic = True 
i 添加 正文 ， 设 置 “ 样 式 ” 一 “明显 引用 ” 
document.add paragraph(' 样式 '-' 明 显 引 用 ' style-'IntenseQuote') 
# 添加 正文 ， 设 置 “ 项 目 符号 ” 
document.add paragraph ( 
WAS i, siyle 'ListBuliet’ 


) 
document.add paragraph( 
UWH^A^-2', style-'ListNumber' 
) 
# 添加 图 片 
document.add picture('test.png', width=Inches (1.25)) 
# 添加 表格 
table = document.add table(rows-l, cols-3) 
hdr certis = Lable.rows[O].celrts 
hdr cells[0].text = OGty 


hdr cellsillil Text = "Ted" 
hdr celils[2|-text — Desc” 
for item in ranqe (2): 
row cells = table.add row().cells 
pow cells[0].text = 'a*' 
row cells[l].text = 'þ' 
row cells[2].-text = ce” 
# 保存 文件 


document.add page break() 
document.save('test.docx') 


在 Word 中 写 入 数据 的 整体 思路 如 下 : 


(1) 创建 生成 临时 Word 对 象 。 

(2) 分 别 使 用 add paragraphO 和 add heading0 对 Word 对 象 添加 标题 和 正文 内 容 。 

(3) 如 果 想 设置 正文 内 容 的 字体 加 粗 和 和 斜体 等 ， 可 以 将 正文 内 容 p 对 象 的 属性 runs[0].bold 
和 add run('XX).italic 设置 为 True。 

CA). 如 果 要 插入 图 片 和 添加 表格 ， 可 以 在 Word 对 象 中 使 用 方法 add. picture0 和 add table0。 

(5) 完成 数据 写 入 ， 需 要 将 Word 对 象 保存 成 Word 文件 。 


谈 取 Word 数据 比 写 入 数据 相对 简单 ， 因 为 不 用 设置 内 容 格式 ， 下 接 获 取 数 据 即 可 。 实 现代 码 
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如 下 : 
# 数据 读 取 


import docx 
def readDocx (docName).: 
fullText = f] 
doc = docx.Document (docName) 
# 读 取 全 部 内 容 
paras = doc.paragraphs 
# 将 每 行 数据 存 入 列表 
for p in paras: 
fullText.append (p.text) 
# 将 列表 数据 转换 成 字符 串 
return 'Xn'.join(fullText) 
print (readDocx('test.docx')) 


在 Word rpi BUdds P] SE p BEREIT T: 


(1) 生成 Word 对 象 ， 并 指 同 Word 文件 。 

(2) 使 用 paragraphsO3X HX Word 对 象 全 部 内 容 。 

(3) 循环 paragraphs 对 象 ， 获 取 每 行 数据 并 写 入 列表 。 

(A) 将 列表 转换 为 字符 串 ， 每 个 列表 元 素 使 用 换行 从 连接 ， 转 换 后 数据 的 段落 布局 与 Word 
文档 相似 。 


14.4 Jk m/p 25 


写 入 和 读 取 CSV. Excel 和 Word 中 的 数据 是 编写 爬虫 程序 的 重要 内 容 ， 存 入 CSV. Excel 和 
Word 中 的 数据 一 般 具 体 动态 变化 性 质 ， 有 一 定 的 时 效 性 ， 适 用 于 股市 行情 、 商 品 信 息 、 新 闻 报 道 
和 排行 榜 信息 等 。 本 章 主要 讲解 了 CSV, Excel 和 Word 中 数据 的 写 入 和 读 取 方法 ， 要 点 如 下 : 

1. CSV 写 入 数据 的 整体 思路 : 


(1) open 函数 打开 CSV 文件 ， 模 式 为 w〔 一 般 设 置 newline=") ， 生 成 file 对 象 。 
(2) CSV 模块 的 writer0 方 法 加 载 对 象 file. 
(3) 使 用 writerow() Cwriterows0) 写 入 一 行 (多 行 ) 数据 。 


2. CSV 读 取 数据 的 整体 思路 : 


(1) open 函数 打开 CSV 文件 ， 模 式 为 r， 生 成 file 对象 。 

(2) CSV 模块 的 reader0 方 法 加 载 对 象 file. 

(3) 使 用 reader (DictReader) 读 取 数据 。 

(4) reader 和 DictReader XJ): 两 者 是 接收 一 个 可 友 代 的 对 象 ， 返 回 一 个 生成 右 ，reader FR 
数 是 将 一 行 数据 以 列表 形式 返回 ; DictReader 盟 数 返回 的 是 一 个 字典 ， 字 典 的 值 是 单元 格 的 值 ， 而 
字典 的 键 则 是 这 个 单元 格 的 标题 〈 即 列 头 ) 


3. Excel 写 入 数据 的 整体 思路 : 
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C) xlwt 创建 生成 临时 Excel 对 象 。 

(2) 添加 WorkSheets 对 象 。 

G) 单元 格 的 位 置 由 行列 索引 决定 ， 索 引 从 0 开始 。 

(4) 数据 写 入 主要 由 write merge0 和 write0 实 现 ， 两 者 分 别 是 合并 单元 格 再 写 入 和 单元 格 与 


(50 设置 数据 格式 是 在 写 入 (write merge0 和 write) 数据 传 入 参数 style. 


4. Excel 恋 取 数据 的 整体 思路 : 


(1) xlrd 生成 Workbook 对 象 ， 并 指 同 Excel 文件 。 
(2) 选择 Workbook 里 某 个 WorkSheets 对 象 。 
(3) 获取 WorkSheets 里 数据 已 占用 的 总 行 数 和 总 列 数 ( 某 个 单元 格 数据 〉。 
(4) 循环 总 行 数 和 总 列 数 ， 读 取 每 一 个 单元 格 的 数据 。 
5. Word 写 入 数据 的 整体 思路 : 


(1) 创建 生成 临时 Word 对 象 并 使 用 以 下 方法 添加 内 容 : 


(2) add headingO 添 加 标题 。 


(3) add paragraphO 添 加 正文 内 容 。 
(4) add picture0 插 入 图 片 。 
(5) add table0 添 加 表格 。 


6. Word 谈 取 数据 的 整体 思路 : 


C) 生成 Wod 对 象 ， 并 指 同 Word 文件 。 

(2) paragraphs()3X HX Word 对 象 全 部 内 容 。 

(3) 循环 paragraphs 对 象 ， 获 取 每 行 数据 并 写 入 列表 。 

(A) 将 列表 转换 为 字符 串 ， 每 个 列表 元 素 使 用 换行 从 连接 ， 转 换 后 数据 的 段落 布局 与 Word 
文档 相似 。 
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ORM 框架 


15.4 SQLAlchemy 介绍 与 安装 


15.1.1. 操作 数据 库 的 方法 


开发 人 员 经 沼 接 触 的 关系 数据 库 主要 有 MySQL、Oracle、SQL Server. SQLite 和 PostgreSQL, 
操作 数据 库 的 方法 大 致 有 以 下 两 种 : 

d) 直接 使 用 数据 库 接口 连接 。 在 Python 的 关系 数据 库 连 接 模块 中 ， 分 别 有 pymysql、 
cX_Oracle、pymssql、sqlite3 和 psycopg2。 通 币 ， 这 类 数据 库 的 操作 步骤 者 是 连接 数据 库 、 执 行 SQL 
语句 、 握 区 事务 、 关 闭 数据 库 连 接 。 每 次 操作 都 需要 Open/Close Connection， 如 此 频 莹 地 操作 对 于 
整个 系统 无 疑 是 一 种 浪费 。 对 于 一 个 企业 级 的 应 用 来 说 ， 这 无 疑 是 不 科学 的 开发 方式 。 

(2) 通过 ORM (Object/Relation Mapping， 对 象 -天 系 映 射 ) 框架 来 操作 数据 库 。 这 是 随 看 面 
器 对 象 软件 开发 方法 的 发 展 而 产生 的 , 面 同 对 象 的 开 友 方法 是 当今 企业 级 应 用 开发 环境 中 的 主流 开 
及 方法 , 天 系数 据 库 是 企业 级 应 用 环境 中 永久 存放 数据 的 主流 数据 存储 系统 。 对 象 和 关系 数据 是 业 
务实 体 的 两 种 表现 形式 ， 业 务实 体 在 内 存 中 表现 为 对 象 ,在 数据 库 中 表现 为 关系 数据 。 内 存 中 的 对 
象 之 间 存 在 关联 和 继承 关系 , 而 在 数据 库 中 , 关系 数据 无 法 直接 表达 多 对 多 关联 和 继承 关系。 因此 ， 
ORM 系统 一 般 以 中 间 件 的 形式 存在 ， 主 要 实现 程序 对 象 到 关系 数据 库 数据 的 映射 。 


在 实际 工作 中 , 企业 级 开发 都 是 使 用 ORM 框架 来 实现 数据 库 持久 化 操作 的 ， 所 以 作为 一 个 开 
发 人 员 ， 很 有 必要 学 习 ORM 框架 。 
15.1.2 SQLAIchemy 框架 介绍 


利用 的 ORM 框架 模块 有 SQLObject、Stom、Django 的 ORM, peewee 和 SQLAlchemy. Æ 
主要 讲述 Python 的 ORM fE28——SQLAlchemy. SQLAlchemy 是 Python 编程 语言 下 的 一 蒜 开源 软 
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件 ， 提 供 SQL 工具 包 及 对 象 -关系 映射 工具 ， 使 用 MIT 许可 证 发 行 。 

SQLAlchemy A Hif8] AH] Python 语言 ， 为 高 效 和 高 性 能 的 数据 库 访 问 设计 ， 实 现 了 完整 的 企 
业 级 持久 模型 。SQLAlchemy 的 理念 是 ，SQL 数据 库 的 量 级 和 性 能 重要 于 对 象 集 合 ， 而 对 象 集合 的 
抽象 又 重要 于 表 和 行 。 因 此 ，SQLAlchmey 采用 类 似 Java 里 Hibernate 的 数据 映射 模型 ， 而 不 是 其 
他 ORM 框架 采用 的 Active Record 模型 。 不 过 ，Elixir 和 declarative 等 可 选 插件 可 以 让 用 户 使 用 声 
明 语 法 。 

SQLAlchemy 首次 发 行 于 2006 年 2 H, Æ Python 社区 中 被 广泛 使 用 的 ORM 工具 之 一 ， 不 亚 
于 Django 的 ORM 框架 。 

SQLAlchemy 在 构建 于 WSGI 规范 的 下 一 代 Python Web 框架 中 得 到 了 广泛 应 用 ， 是 由 Mike 
Bayer 及 其 开发 团队 开发 的 一 个 单独 的 项 目 。 使 用 SQLAlchemy 等 独立 ORM 的 一 个 优势 就 是 允许 
开发 人 员 上 前 先 考虑 数据 模型 ， 并 能 决定 稍 后 可 视 化 数据 的 方式 (采用 命令 行 工 具 、Web 框架 还 是 
GUI 框架) 。 这 与 先决 定 使 用 Web 框架 或 GUI 框架， 再 决定 如 何在 框架 允许 的 范围 内 使 用 数据 模 
型 的 开发 方法 极为 不 同 。 

SQLAlchemy 的 一 个 目标 是 提供 能 兼容 众多 数据 库 ( 如 SQLite、 MySQL. Postgres, Oracle, 
MS-SQL, SQLServer 和 Firebird). 的 企业 级 持久 性 模型 。 


15.1.3 SQLAIchemy 的 安装 


安装 SQLAlchemy 时 ， 建 议 直 接 使 用 pip 安装 。 


pip install SQLAlchemy 


除了 通过 pp 安装 外 ， 也 可 以 在 www.Hfd.uci.edu/-gohlke/pythonlibs/Zsglalehemy 下 载 
SQLAlchemy 版 本 的 whl 文件 ，whl 文件 可 使 用 pip 安装 ， 在 CMD 终端 ) 中 切换 到 whl 文件 所 在 
路 径 ， 输 入 安装 指令 : 


pip install SQLAlchemyBH1.2.14B8cp37Blcp37mBwin amd64.whl 


使 用 SQLAlchemy 连接 数据 库 实质 上 还 是 通过 数据 库 接口 实现 连接 ， 安 装 SQLAlchemy 后 还 
再 要 安装 对 应 数据 库 的 接口 模块 ， 下 面 以 MySQL 为 例 安装 pymysql 模块 : 

pip install pymysqi 

完成 安装 后 ， 打 开 CMD 窗口 ， 通 过 导入 模块 测试 是 否 安 装 成 功 : 


>>> import sqlalchemy 
>>> sqlalchemy. version 
DI DIT. 

>>> import pymysql 

>>> pymysql. version 
t3 9g: v 
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15.2 ”连接 数据 库 


在 使 用 SQLAlchemy 连接 数据 库 之 前 ， 先 简单 介绍 一 下 数据 库 系统 环境 ， 数 据 库 系统 版 本 信 
息 如 图 15-1 所 示 。 


MySQL. 
Notifier 1.1 


MySQL Notifier 1.1.7 
MySQL Installer 1.4 


图 15-1 MySQL 信息 
使 用 的 数据 库 是 本 地 数据 库 ， 端 口 是 默 认 端 口 3306， 是 通过 MySQL 工作 台 创 建 并 命名 为 test 
的 数据 库 ， 如 图 15-2 所 示 。 


入 Localinstance MySQL57 x 


File Edit View Query Database Server Tools Scripting Help 


6l& 6 ó5 


em Functions 


图 15-2 数据库 信息 


SQLAlchemy 连接 数据 库 使 用 数据 库 连 接 闻 技术 , 原理 是 在 系统 初始 化 的 时 候 , 将 数据 库 连 接 
作为 对 象 存 储 在 内 存 中 ， 当 用 户 需 要 访问 数据 库 时 ， 并 非 建立 一 个 新 的 连接 ， 而 是 从 连接 池 中 取出 
一 个 已 建立 的 空闲 连接 对 象 。 使 用 完毕 后 ， 用 户 也 并 非 将 连接 关闭 ， 而 是 将 连接 放 回 连接 池 中 ， 以 
供 下 一 个 请 求 访问 使 用 。 而 连接 的 建立 、 断 开 都 由 连接 池上 自身 来 管理 。 同 时 ， 还 可 以 通过 设置 连接 
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池 的 参数 来 控制 连接 池 中 的 初始 连接 数 、 连 接 的 上 下 限 数 以 及 每 个 连接 的 最 大 使 用 次 数 、 最 大 衬 朵 
时 间 等 。 也 可 以 通过 其 自身 的 管理 机 制 来 监视 数据 库 连 接 的 数量 、 使 用 情况 等 。 

通过 了 解 SOLAlchemy 的 原理 有 利于 理解 SOLAlchemy 连接 数据 库 的 代码 ， 代 码 如 下 : 

from sqlalchemy import create engine 

engine-create engine ("mysql-«pymysql://root:110810calhost:3306/test?charset 
—utf8",echo-True) 

导入 SQLAlchemy 的 create engine 模块 ， 设 置 数据 库 指令 和 参数 后 可 实现 连接 ， 上 述 代 码 是 
常用 的 连接 方式 。create engine 的 参数 设置 说 明 如 下 。 


e mysqltpymysql://root:110(@localhost:3306/test: mysql 指明 数据 库 系 统 类 型 ，pymysql 是 连 
接 数 据 库 接口 的 模块 ，ioot 是 数据 库 系 统 用 尸 名 ，110 是 数据 库 系 统 获 码 ，localhost3306 
是 本 地 的 数据 库 系 统 和 数据 库 端 口 ，test 是 数据 库 名 称 。 

€ echo-Irue: 用 于 显示 SQLAlchemy 在 操作 数据 库 时 所 执行 的 SQL 语句 情况 ， 相 当 于 一 个 
监视 器 ， 可 以 清楚 知道 执行 情况 ， 如 果 设 置 为 False， 就 可 以 关闭 。 

e pool size: 设置 连接 数 ， 默 认 设 置 5 个 连接 数 ， 连 接 数 可 以 根据 实际 情况 进行 调整 ， 在 一 
般 的 爬虫 开发 中 ， 使 用 默认 值 已 足够 。 

e max overflow: 默认 连接 数 为 10, 当 超 出 最 大 连接 数 后 , 如 果 超 出 的 连接 数 在 max overflow 
设置 的 访问 内 ， 超 出 的 部 分 还 可 以 继续 连接 访问 ， 在 使 用 过 后 ， 这 部 分 连接 不 放 在 pool 
(连接 池 ) 中 ， 而 是 被 真正 关闭 。 

è pool recycle: 连接 重 置 周期 ， 默 认为 -1， 推 荐 设置 为 7200, 即 如 果 连 接 已 空间 7200 $7, 
就 自动 重新 获取 , 以 防止 connection 被 关闭 。 

* pool timeout: 连接 超时 时 间 ， 默 认为 30 稍 ， 超 过 时 间 的 连接 都 会 连接 失败 
?charset-utf8: 对 数据 库 进 行 编 码 设 置 ， 能 对 数据 库 进 行 中 文 读 写 ， 如 果 不 设置 ， 在 进行 
数据 添加 、 修 改 和 更 新 等 时 ， 就 会 提示 编码 错误 


完整 的 连接 数据 库 代 码 如 下 : 


from sqlalchemy import create engine 

engine-create engine ("mysql+pymysql://root:110@0localhost:3306/test", 
echo-True,pool size-5, max overflow-4, 
pool recycle-7200, pool timeout-30) 


上 述 代 码 只 是 给 出 连接 MySQL 的 语句 ， 其 他 数据 的 连接 如 表 15-1 所 示 。 
表 15-1 主流 数据 库 连 接 方式 


Oracle cx Oracle://username:password(V1ip:port/dbname 


PostgreSQL postgresql://username:password(2'p:port/dbname 
slitez/file path 
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15.3 创建 数据 表 


完成 数据 库 的 连接 后 ， 可 以 通过 SQLAlchemy 对 数据 表 进 行 创建 和 删除 ， 由 图 10-2 可 知 ，test 
数据 库 是 没有 数据 表 的 ， 使 用 SQLAlchemy 创建 数据 表 ， 代 码 如 下 : 


from sqlalchemy.ext.declarative import declarative base 
from sqlalchemy import Column, Integer, String, DateTime 
Base = declarative base) 


class mytable (Base): 
# 表 名 
tablename = 'mytable' 
# 字段 ， 属 性 
id = Column(Integer, primary key-True) 
name — Column(String(50), unique-True) 
age — Column(Integer) 
birth = Column (DateTime) 
class name = Column (String (50)) 
# 创建 数据 表 


Base.metadata.create all(engine) 
引入 declarative base 模块 ， 生 成 其 对 象 Base， 再 创建 一 个 类 mytable。 一 般 情 况 下 ， 数 据 表 名 
和 类 名 是 一 致 的 ， ”tablename ”用 于 定义 数据 表 的 名 称 ， 可 忽略 ， 忽 略 时 默认 类 名 为 数据 表 名 。 
然后 创建 字段 id. name. age. birth, class name. 最 后 使 用 Base.metadata.create all(engine) 在 数据 
库 中 创建 对 应 的 数据 表 。 
上 述 是 比较 常见 的 创建 数据 表 的 方法 之 一 ， 还 有 一 种 创建 方法 类 似 SQL 语句 的 创建 方法 : 
from sqlalchemy import Column, MetaData, ForeignKey, Table 
from sqlalchemy.dialects.mysql import (INTEGER, CHAR) 
meta = MetaData() 
myclass = Table{ myclass', meta, 
Column('id', INTEGER, primary key-True), 
Column('name', CHAR(50), ForeignKey (mytable.name)), 
Column('class name', CHAR(50)) 
) 
# 创建 数据 表 
myclass.create (bind-engine) 
此 创建 方法 与 前 面 介 绍 的 创建 数据 表 的 方法 大 有 不 同 ， 代 码 比较 偏向 于 SQL 创建 数据 表 的 语 
法 ， 两 者 引入 的 模块 也 各 不 相同 ， 导 致 在 创建 数据 表 的 时 候 ， 创 建 语法 也 不 一 致 。 不 过 两 者 实现 的 
功能 是 一 样 的 ， 读 者 可 以 根据 自己 的 爱好 进行 选择 。 一 般 情况 下 ， 前 者 较 有 优势 ， 在 数据 表 已 经 存 
在 的 情况 下 ， 前 者 再 创建 数据 表 不 会 报错 ， 后 者 束 会 提示 已 存在 数据 表 的 错误 信息 。 
右 要 删除 数据 表 ， 则 可 用 以 下 代码 : 
+ 先 删除 myclass， 后 删除 mytable 


myclass.drop(bind-engine) 
Base.metadata.drop all(engine) 
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在 删除 数据 表 的 时 候 ， 一 定 要 先 删 除 设 有 外 键 的 数据 表 ， 也 就 是 先 删 除 myclass 后 才能 删除 
mytable， 两 者 之 间 涉 及 外 键 ， 这 是 在 数据 库 中 删除 数据 表 的 规则 。 

以 下 是 完整 的 代码 : 

# 连接 数据 库 


from sqlalchemy import create engine 

engine = create engine( 
"mysql«pymysql://root:1990810calhost:3306/test?charset-utf8", 
echo-True) 


# 创建 数据 表 方 法 一 

from sqlalchemy import Column, Integer, String, DateTime 
from sqlalchemy.ext.declarative import declarative base 
Base = declarative base() 


class mytable (Base): 
EKZ 
tablename = 'mytabie! 
# 字段 ， 属 性 
id = Column(Integer, primary key-True) 
name — Column(String(50), unique-True) 
age — Columnitintoegcr) 
birth = Column (DateTime) 
class name = Column (String (50)) 


Base.metadata.create all(engine) 


# 创建 数据 表 方 法 二 

from sqlalchemy import Column, MetaData, ForeignKey, Table 

from sqlalchemy.dialects.mysql import (INTEGER, CHAR) 

meta = MetaData(í) 

myclass = Table('myclass'. mobs, 
Column('id', INTEGER, primary key-True), 
Column('name', CHAR(50), ForeignKey (mytable.name)), 
Column('class name', CHAR(50)) 
) 


myclass.create (bind-engine) 


# 删除 数据 表 
myclass.drop (bind=engine) 
Base.metadata.drop all (engine) 


无 论 数据 表 是 否 已 经 创建 ， 在 使 用 SQLAlchemy 时 一 定 要 对 数据 表 的 属性 、 字 段 进 行 类 


定义 。 也 就 是 说 ， 无 论 通过 什么 方式 创建 数据 表 ， 在 使 用 SQLAlchemy 的 时 候 ， 第 一 步 
是 创建 数据 库 连 接 ， 第 二 步 是 定义 类 来 映射 数据 表 ， 类 的 属性 映射 数据 表 的 字段 。 
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154 添加 数据 


完成 数据 表 的 创建 后 ， 下 一 步 对 数据 表 的 数据 进行 操作 。 首 先 创建 一 个 会 话 对 象 ， 用 于 执行 
SQL 语句 ， 代 码 如 下 : 

from sqlalchemy.orm import sessionmaker 

DBSession = sessionmaker (bind-engine) 

session = DBSession() 

引入 sessionmaker 模块 ， 指 明 绑 定 已 连接 数据 库 的 engine 对 象 ， 生 成 会 话 对 象 session, i208 
象 用 于 数据 库 的 增 、 删 、 改 、 查 。 

一 般 来 说 ， 常 用 的 数据 库 操作 是 增 、 改 、 查 ，SQLAlchemy 对 这 类 操作 有 自身 的 语法 支持 。 对 
10.4 下 中 创建 的 数据 表 添 加 数据 ， 人 代码 如 下 : 

new data = mytable(name-'Li Lei',age-10,birth-'2017-10-01', 

class name-'- Æ% — HE ' ) 
session.add(new data) 


session.commit() 
session.close() 


要 使 用 SOLAlchemy 添加 数据 ， 必 须 已 经 定义 mytable XR, mytable 是 映射 数据 库 里 面 的 
mytable 数据 表 。 然 后 设置 类 属性 (字段) 对 应 的 添加 值 ， 将 数据 绑 定 在 session 会 话 中 ， 最 后 通过 
session.commit() 来 提交 到 数据 中 ， 就 完成 对 数据 库 的 数据 添加 了 。session.closeO 用 于 关 财 会话 ， 关 
闭会 话 不 是 必要 规定 ， 不 过 为 了 形成 良好 的 编码 规范 ， 最 好 添加 上 。 


如 果 关 闭会 话 放 在 session.commit0 之 前 ， 这 个 添加 语句 就 是 无 效 的 ， 因 为 当前 的 session 
已 经 被 关闭 和 销毁 。 所 以 在 使 用 session.closeO 时 ， 要 注意 编写 的 位 置 。 


通过 MySQL 工作 台 可 以 看 到 数据 表 中 已 成 功 添 加 一 条 数据 ， 如 图 15-3 所 示 。 


i H5 4 4 C | AE | Limitto 1000 row 


1 © SELECT * FROM test.mytable; 


€ 


Result Grid dH €$ Fiter Rows: | | Edit: Tá) Es 


id name age birth dass name 


1 Lile — 10 2017-10-0100:00:00 X —ZzED.—WT 


图 15-3 SQLAlchemy 添加 数据 
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15.5 更 新 数据 


目前 ， 数 据 库 中 已 经 添加 了 一 条 数据 ， 如 果 要 对 这 条 数据 进行 更 新 ，SQLAlchemy 提供 了 以 下 


两 种 更 新 数据 的 方法 。 


(1) 使 用 update 方法 更 新 数据 ， 代 码 如 下 : 


session.query(mytable).filter by(id-1).update(( mytable.age : 12]) 
session.commit() 
session.close() 


首先 得 询 mytable K id 73 1 的 数据 ; 然后 使 用 update 对 这 条 数据 进行 更 新 ，update 数据 的 格 


式 是 字典 类 型 ， 通 过 键 值 的 方式 对 数据 进行 更 新 ; PUB IS HI session.coomit(0) 执 行 更 新 语句 ; 最 后 使 
用 session.closeO0 关 闭 当 前 会 话 ， 释 放 资 源 。 


12. 


如 果 批 量 更 新 ， 就 可 以 将 filter byQd=1) 去 挥 ， 这 样 能 将 mytable 中 age 字段 的 值 全 部 更 新 为 
filter by 相当 于 SQL 语句 里 面 的 where 条 件 判 断 。 

使 用 赋值 方式 更 新 数据 ， 代 人 码 如 下 : 

get data = session.query(mytable).filter by(id-1).first() 

get data.class name — =A HE! 


session.commit() 
session.close() 


使 用 赋值 方式 也 是 将 数据 得 询 出 来 ， 生 成 查询 对 象 ， 然 后 对 该 对 象 的 东 个 属性 重新 赋值 ， 最 


后 提交 到 数据 库 执 行 。 这 种 方法 对 批量 更 新 不 太 友 好 ， 第 用 于 单条 数据 的 更 新 ， 硅 要 用 这 种 方法 实 
现 批量 更 新 ， 则 只 能 循环 每 条 数据 进行 赋值 更 改 。 但 这 种 方法 对 性 能 影响 较 大 ， 批 量 更 新 使 用 
update() LE f£ & JI. 


运行 结果 如 图 15-4 所 示 。 


mytable | 


CJ BH y 4 A, w |O O [E | Limitto 1000 rows 


1 © SELECT * FROM test.mytable; 


€ 


Result Grid TH Y Filter Rows: | | Edit: A Ex EIE 


id name age birth dass name 
b |1 Lilei 12 2017-10-01 00:00:00 ”三 年 级 二 班 
Da LE my my NULL | 


图 15-4 SQLAlchemy 更 新 数据 
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15.66 查询 数 


SQLAlchemy 对 数据 库 多 种 查询 方式 有 很 好 的 语法 支持 。 首 先 对 mytable 和 myclass 加 入 部 分 
数据 ， 以 便 更 好 地 讲解 ， 如 图 15-5 所 示 。 


加 日 | 区 和 芝 人 入 总 | 也 


1 è 上 ELECT * FROM test.myclass; 


mytnbie 
uu H5 4 & En | REl | Limit to 1000 rows 


1€) SELECT * FROM test.mytable;myclass 


€ 


Result Grid | TH tY Fiter Rows: | 


id name dass name 
Li lei 二 年 级 二 班 
Han meme: 二 年 级 二 班 


Li 三 年 级 一 班 


Result Grid | AH 4 Fiter Rows: | | | Edit: fcd] Ew FE 
| name age birth class name 
Li lei 12 2017-10-01 00:00:00 
Han meimei 2017-10-05 00:00:00 
2017-10-02 00:00:00 


Paii i 


MLLL 


图 15-5 数据 表 数 据 内 容 


由 图 15-5 可 以 看 到 ， 两 个 数据 表 已 添加 部 分 数据 ， 碍 询 茶 个 数据 表 中 数据 的 代码 如 下 : 
# fr myclass 全 部 数据 


get data = session.query (myclass).all() 
tor 1 in get data: 

print ("我 的 名 字 是 : ' + i.name) 

print (RPH: ”14 i. class name) 
session.close() 


代码 session.query(myclass)fH ^4 F SQL 语句 里 面 的 select * from myclass; 而 all0 是 将 数据 以 列 
表 的 形式 返回 。 
如 果 要 得 询 某 一 字段 ， 如 SQL 语句 select name,class name from myclass， 代 码 如 下 : 


get data - session.query(myclass.name, myclass.class name).all() 
for 1 in get data: 

print (RAAF: ' + i.name) 

print (' 我 的 班级 是 : ' + i.class name) 
session.close() 


WB nDETLE, SOLAlIchemy A ARIMEN IE, TRU F: 


# 根据 条 件 查 询 某 条 数据 
i get data = session.query(myclass).filter (myclass.id--1).a11() 
# MAN: 
get data = session.query(myclass).filter by(id-1).all() 
print ("数据 类 型 是 :; ' + str(type(get data))) 
tor 1 in ger data: 
print ("我 的 名 字 是 : ' + i.name) 
print (' 我 的 班级 是 : ' + i.class name) 
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R37] MBPS get data 对 象 ， 两 者 的 区 别 在 于 filter 和 filter by. 


(1) 字段 写法 : filter MATFRE TRKA CRZ) 的 ， 而 filter by H Aime rE BEIT 
(2) 判断 条 件 : filter 比 filter by 多 出 一 个 等 号 。 
(3) 作用 范围 ，filter 可 以 用 于 单 表 或 者 多 表 查 询 ， 而 filter by 只 能 用 于 单 表 查 询 。 


all0 方 法 是 将 得 询 数据 以 列表 的 形式 返回 ， 但 只 查询 一 条 数据 的 时 候 ， 可 以 用 first0 返 回 第 一 


条 数据 。 代 人 码 如 下 : 
get data = session.query(myclass).filter by(id-1).first() 
print (' 数 据 类 型 是 : ' + str(type(get data))) 
Brint(" 我 的 名 字 是 ; ' + get data.name) 
print (' 我 的 班级 是 : ' + get data.class name) 


KLEM, W SQL 的 select * from mytable where id>1 and class name=' 三 年 级 二 班 '， 实 


get data = session.query(mytable).filter(mytable.id »- 2, 
mytable.class name == ' 二 年 级 二 班 ') ee ubi) 

print ("数据 类 型 是 i ' + str(type(get data))) 

print (' 我 的 名 字 是 : ' + get data.name) 

print (' 我 的 班级 是 : ' + get data.class name) 


多 条 件 碍 询 只 需要 在 查询 条 件 中 添加 多 个 得 询 内 容 即 可 ， 每 个 查询 内 容 以 英文 逗号 陋 开 。 如 


果 将 SQL 语句 的 多 条 件 查询 “and” 改 成 “or”，SQLAlchemy 代码 如 下 : 


from sqlalchemy import or 
session.query(mytable).filter(or (mytable.id »- 2, 
mytable.class name == ' 三 年 级 二 班 ， |)Jvcattt) 


如 果 涉 及 多 表 查 询 的 内 连接 查询 和 外 连接 查询 ， 实 现代 码 如 下 : 
# 内 连接 


get data = session.query(mytable).join(myclass).filter( 
mytable.class name == ' 二 年 级 二 班 ") -all11() 

print (' 数 据 类 型 是 : ' + str(type(get data))) 
for 1 in get data: 

print ("我 的 名 字 是 ; ' + i.name) 

print (' 我 的 班级 是 : ' + i.class name) 
# 外 连接 
get data = session.query (mytable).outerjoin( 

myclass).filter(mytable.class name--' 三 年 级 二 班 ') .a11() 


代码 中 的 join 和 outerjoin 与 SQL 语句 中 的 INNER JOIN 和 FULL OUTER JOIN 意思 一 致 ， 两 


者 之 间 在 实现 功能 和 性 能 上 存在 明显 的 差别 。 


一 般 来 说 ， 如 果 涉 及 复杂 的 查询 语 名 ， 特 别 涉及 多 表 碍 询 和 复杂 的 查询 条 件 时 ，SQLAlchemy 


还 可 以 直接 执行 SQL 语句 ， 代 码 如 下 : 


sal — select * Erom mytable 
session.execute (sql) 
# 如 果 涉 及 更 新 、 添 加 数据 ， 就 需要 session.commit () 


session.commit() 
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本 章 主要 介绍 了 ORM 框架 的 SOLAlchemy 的 功能 和 使 用 ，SQLAlchemy 的 理念 是 SQL 数据 
库 的 量 级 和 性 能 重要 于 对 象 集合 ， 而 对 象 集合 的 抽象 义 重 要 于 表 和 行 。 
SQLAlchemy 操作 数据 库 的 流程 如 下 。 
连接 数据 库 : 使 用 create engineO 实 现 连 接 ， 需 了 解 create engine0O 各 个 参数 的 作用 。 
创建 数据 表 : 定义 实体 类 映射 数据 表 结 构 ， 通 过 操作 类 属性 从 而 操作 数据 表 字段 。 
创建 持久 化 对 象 : 引入 sessionmaker 模块 ， 绑 定 已 连接 数据 库 的 engine 对 和 象 ， 生 成 会 话 对 


X. session. 

e 添加 数据 : 对 实体 类 的 属性 赋值 ， 通 过 sesslionadd0 方 法 添加 数据 ， 通 过 session.commit() 
提交 到 数据 库 。 

e 使 用 更 新 数据 : 先 查询 需要 修改 的 数据 对 象 再 更 新 。 更 新 方法 有 修改 对 象 属性 值 和 使 用 
update() 方 法 更 新 数据 .。 

e 查询 数据 : 掌握 SQLAlchemy 查询 语句 ， 区 分 filter by 和 filter 的 差异 ， 理 解 多 条 件 查 询 
和 多 表 查 询 。 


e 执行 SQL 语句: SQLAlchemy 使 用 execute) > EHT SQL 语句， 


MongoDB 数据 库 操 作 


16.1 MongoDB 介绍 


MongoDB 是 一 种 基于 分 布 式 文件 存储 的 数据 库 ， 由 CB HRS. AE Web 应 用 提供 可 
扩展 的 高 性 能 数据 存储 解决 方案 。MongoDB 是 介 于 关系 数据 库 和 非 关 系数 据 库 之 则 的 产品 ， 是 非 
关系 数据 库 中 功能 最 丰 证 、 最 像 关 系数 据 库 的 数据 库 。MongoDB 文 持 的 数据 结构 非 营 松散 ， 关 似 
T JSON 的 BSON 格式 ， 因 此 可 以 存储 比较 复 淋 的 数据 类 型 。MongoDB 最 大 的 特点 是 支持 的 得 询 
语言 非常 强大 , 其 语法 有 点 类 似 面 癌 对 象 的 查询 语言 ,几乎 可 以 实现 类 似 关 系数 据 库 单 表 得 询 的 绝 
大 部 分 功能 ， 而 且 还 文 持 对 数据 建立 索引 。 


MongoDB 的 特点 是 高 性 能 、 易 部 署 、 易 使 用 ， 存 储 数据 非常 方便 。 主 要 功能 特性 有 : 
CD 面 癌 集合 存储 、 易 存储 对 象 类 型 的 数据 。 
(20 模式 上 自由。 


(3) 文 持 动态 查询 。 

(4) 支持 完全 索引 ， 包 含 内 部 对 象 。 

(5) 支持 三 询 。 

(6) 支持 复制 和 故障 恢复 。 

CI) 使 用 高 效 的 二 进 制 数据 存储 ， 包 括 大 型 对 象 〈 如 视频 等 ) 。 

(8) 自动 处 理 雁 片 ， 以 支持 云 计 算 层 次 的 扩展 性 。 

(9) 支持 Ruby、Python、Java、C++、PHP、C# 等 多 种 语言 。 

(10) 文件 存储 格式 为 BSON (一 种 JSON 的 扩展 ) 。 

(11) 可 通过 网 络 访问 。 

所 请 “和 面 问 集合 ” (Collection-Oriented) ， 意 思 是 数据 被 分 组 存储 在 数据 集中 ， 被 称 为 一 个 
集合 (Collection〉。 每 个 集合 在 数据 库 中 都 有 一 个 唯一 的 标识 名 ， 并 且 可 以 包含 无 限 数目 的 文档 。 
集合 的 概念 类 似 关系 型 数据 库 (RDBMS) 里 的 表 (Table) ， 不 同 的 是 MongoDB 不 需要 定义 任何 
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EIN (Schema) ， 有 具有 闪存 高 速 缓存 算法 ， 能 够 快速 识别 数据 库 内 大 数据 集中 的 热 数据 ， 提 供 一 
致 的 性 能 改进 。 

模式 和 目 由 (Schema-Free) ， 意 味 痢 对 于 存储 在 MongoDB 数据 库 中 的 文件 ， 不 需要 知道 它 的 
任何 结构 定义 。 如 果 需 要 ， 完 全 可 以 把 不 同 结构 的 文件 存储 在 同一 个 数据 库 里 。 

存储 在 集合 中 的 文档 被 存储 为 键 - 值 对 的 形式 。 键 用 于 唯一 标识 一 个 文档 ， 为 字符 串 类 型 ， 而 
值 则 可 以 是 各 种 复杂 的 文件 关 型 。 我 们 称 这 种 存储 形式 为 BSON (Binary Serialized Document 
Format) 。 


MongoDB 已 经 在 多 个 站 点 部 普 ， 其 主要 场景 如 下 : 


CD 网 站 实时 数据 处 理 。 非 常 适合 实时 地 添加 、 更 新 与 查询 ， 并 具备 网 站 实时 数据 存储 所 需 
的 复制 及 高 度 伸 缩 性 。 

(2) 缓存 。 由 于 性 能 很 高 ， 因 此 适合 作为 信息 基础 设施 的 缓存 层 。 在 系统 重启 之 后 ， 由 它 搭 
建 的 持久 化 缓存 层 可 以 避免 下 层 的 数据 源 过 载 。 

G) 高 伸缩 性 的 场景 。 非 常 适合 由 数 十 或 数 百 台 服 务 器 组 成 的 数据 库 ， 它 的 路 线 图 中 已 经 包 
EXT MapReduce 引擎 的 内 置 支持 。 


16.2 MogoDB 的 安装 及 使 用 


使 用 Python 操作 MongoDB 需要 搭建 开发 环境 ， 本 节 介绍 在 Windows 下 搭建 
Python+MongoDB 环境 配置 。 配 置 环境 需 安 装 benc: lode weed ĦAM Python 操作 
MongoDB 的 第 三 方 库 PyMongo。 


16.2.1 MongoDB 的 安装 与 配置 


MongoDB 的 安装 包 可 在 官方 网 站 下 载 社 区 版 (www.mongodb.comy/download-center#community) ， 
如 图 16-1 所 示 。 


Current Stable Release (3.4.10) 


0/31/2017: Release Notes | Changelog aa VVindows 
DON mload Source: tgz | zip 


Version: 


Windows Server 2008 R2 64-bit and later, with 55L support x64 Y 


Windows Server 2008 R2 64-bit and later, with SSL support x64 
Windows Server 2008 R2 64-bit and later, without SSL support x64 
Windows Server 2008 64-bit, without SSL support x64 


出 DOWNLOAD (msi) 


图 16-1 MongoDB 官方 下 载 版 本 
下 载 完成 之 后 ， 直 接 打开 安装 包 ， 单 击 “Next” 按 钮 按 提示 完成 安装 即 可 。 完 成 安装 后 ， 进 
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入 MongoDB 默认 安装 目录 (C:\Program Files\MongoDB\Server3.4) , 在 当前 目录 下 新 建文 件 夹 data 
和 log， 分 别 用 于 存放 数据 库 文 件 和 log 日 专文 件 ， 再 创建 一 个 mongo.conf 配置 文件 ， 如 图 16-2 
PIS 


> Windows (C:) > Program Files > MongoDB > Server > 3.4 


T bin 

| data 

T log 

| | GNU-AGPL-3.0 

| | mongo.conf 

| | MPL-2 

| | README 

|. | THIRD-PARTY-NOTICES 


图 16-2 MongoDB 安装 目录 


打开 新 创建 的 mongo.conf， 输 入 以 下 代码 : 
# 数据 库 文 件 路 径 
dbpath = C:\Program Files\MongoDB\Server\3.4\data 


# 日 志 输 出 文件 路 径 

logpath = C:\Program FilesMMongoDBNMServerM3.4MlogNmongo.log 
# 错误 日 志 采 用 退 加 模式 

logappend = true 

# 启用 日 志文 件 ， 默 认 启 用 

Journal = true 

# 这 个 选项 可 以 过 滤 掉 一 些 无 用 的 日 志 信 息 ， 夺 需要 调试 使 用 ， 则 设置 为 false 
quiet = true 


# 端口 号 ， 默 认为 27017 

pore — 27017 

PS data 文件 夹 路 人 径 (data 文件 严 的 路 径 没 有 硬性 规定 ， 一 般 
SNA JI MongoDB 的 安装 目录 ) ， 日 志文 件 路 径 为 新 建 的 log 文件 夹 路 人 径 。 写 入 配置 信息 后 van 
闭 文 件 ， 然 后 打开 CMD 窗口 (终端 ) ， 路 径 切换 到 图 16-2 中 的 bin 目录， 依次 输入 以 下 命 

mongod --config "配置 文件 mongo.conf 绝对 路 径 " --install --serviceName "MongoDB" 

net start MongoDB 

以 上 命令 代表 将 MongoDB 数据 库 服 务 器 添加 到 Windows 服务 ， 这 样 可 免 去 每 次 手动 开局 
MongoDB。 运 行 结果 如 图 16-3 所 示 。 


C:\Program Piles \MongoDB\ Server\3. 4\bin>mongod 一 config “C:\Program Files\MongoDB\Server\3. 4\mongo. conf” — install —ser 
'iceName "WongoDB^ 


‘Program FilesMMongoDBXServerVX3. 44bin»net start MongoDB 


vx roDB 服务 正在 启动 
iongoDB 服务 已 经 启动 成 功 


C:\Program FilesMWMongoDBXServerM3. 4\bin» 
图 16-3 MongoDB 配置 信息 
完成 配置 设置 后 ， 在 浏览 器 中 输入 http://127.0.0.1:27017/ 验 证 配置 是 否 成 功 ， 若 出 现 如 图 16-4 
所 示 的 内 容 ， 则 说 明 配 置 成 功 。 
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€ œŒ | © 127.0.0.1:27017 


It looks like you are trying to access MongoDB over HTTP on the native driver port. 


图 16-4 MongoDB 配置 成 功 


16.2.2 MongoDB 可 视 化 工具 


可 视 化 工具 可 帮助 使 用 者 快速 查看 数据 库 的 使 用 情况 ，MongoDB 利用 的 可 视 化 工具 有 
RoboMongo 和 MongoBooster. 

以 RoboMongo 使 用 为 例 , 官方 网 站 下 载 地 址 为 https:/robomongo.org/download, 下 载 后 运行 .exe 
文件 ， 按 提示 可 完成 安装 。 然 后 运行 软件 ， 单 击 “MongoDB Connections” AiP HY “Create” f 
钮 ， 弹 出 “Connections Settings”， 输 入 Name 和 Address 的 信息 : Name 为 对 该 连接 的 命名 ， 可 目 
定义 命名 ; Address 处 分 别 输入 数据 库 IP 地 址 和 端口 。 此 处 以 本 地 数据 库 为 例 ， 如 图 16-5 所 示 。 

T ipee 


k S n E] E] 
Create, edit, remove, clone or reorder connections via drag n drop. 


Œ| Connection Settings 


Connection Authentication 33H ZSL Advanced 


Type: Direet Connection 


Choose any connection name that will help you to identity this connection. 


Address: | localhost |i 


opecify host and port ot MongolDB server. Host can be either lPv4, lIPwv6 or domain name. 


图 16-5 RoboMongo 创建 数据 库 连 接 


连接 数据 库 后 ， 会 看 到 数据 库 有 一 个 “system” 文 件 夹 ， 文 件 夹 里 有 “admin” 和 “1local” 数 
据 库 ， 两 者 此 属于 系统 数据 库 ， 如 图 16-6 所 示 。 
Hle View Options Window 


上 MyDB (3) 
wv... System Open Shell 
^ B admin Refresh 

> B local 


v B DB Create Database 


w  . Collections (1) Server Status 
s user Host Info 
v Hcc MongoDB Version 


7 Functions Show Log 


^  . Users Disconnect 


图 16-6 MongoDB 数据 结构 


结合 图 11-6 创建 数据 库 ， 方 法 如 下 : 
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步骤 014 右 击 “MyDB”， 单 击 “Create Database" ， 将 数据 库 命名 为 “DB "。 

步骤 02 / +T 开 数据 库 “DB”, á “Collections”, X4 "Create Collection”, m22 “user”o 
新 建 的 user 称 为 集合 ， 相 当 于 关系 数据 库 里 血 的 数据 表 。 

步骤 03 4 右 击 “user ， 选 择 “Insert Document”o Document 代表 文档 内 容 ， 相 当 于 MySQL 
里 数据 表 中 的 数据 。Document 是 BSON 格式 ， 类 似 JSON， 如 图 16-7 所 示 。 


v [B MyDB (3) COHERENTE: 
v System | L] db. getCollection( user). findt{}) X 


> B admin 
> B local 
w = DB 
*  . Collections (1) 
v [E] user 
v  . Indexes (1) 
^h dd. 


E" WDE [Æ| localhost:27017 | 


> Functions (0) 
> 上 Users (0) 


图 16-7 MongoDB 添加 文档 


步骤 044 集合 user 里 有 文件 来 “Indexes”"， 用 于 实现 集合 的 索引 功能 ， 文 件 夹 “Functions” 
用 于 实现 脚本 功能 ; 在 “Users” 中 设 定 用 户 账 号 密码 ， 用 于 设置 访问 权限 。 


16.2.3 PyMongo 的 安装 


PyMongo 是 Python 操作 MongoDB 的 第 三 方 库 ， 有 庞大 的 社区 ， 功 能 较为 稳定 和 完善 。 建 议 
使 用 pip 安装 PyMongo: 


pip install pymongo 
完成 安装 后 ， 打 开 CMD 窗口 ， 通 过 导入 模块 测试 是 否 安装 成 功 : 


>>> import pymongo 
>>> pymongo. version 
oc br 


16.3 连接 MongoDB 数据 库 


通过 前 面 的 介绍 ， 相 信 大 家 对 MongoDB 的 数据 结构 有 了 一 定 的 了 解 ， 本 节 介 绍 Python 连接 
MongoDB 数据 库 。 

使 用 Python 实现 对 MongoDB 操作 的 原理 与 连接 关系 式 数 据 库 一 样 : 连接 数据 库 一 访问 数据 
4 (ESO 一 增删 改 得 。 

Python 连接 MongoDB 主要 由 PyMongo 实现 ， 连 接 代 码 如 下 : 
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import pymongo 

# 创建 对 象 ， 连 接 本 地 数据 库 

b dE 

client = pymongo.MongoClient() 

站 

client — pymongo.MongoClient('localhost', 27017) 
E o4 

client = MongoClient('mongodb://localhost:27017/") 
# 连接 DB 数据 库 

db = client["'DB'] 

# 连接 集合 user， 人 和 集合 类 似 关 系数 据 库 的 数据 表 

# 如 果 集 合 不 存在 ， 就 会 新 建 集合 user 

user collection = db.user 


# 设置 文档 格式 (文档 即 我 们 常 说 的 数据 ) 


代码 使 用 三 种 方法 创建 数据 库 (client〉 对 象 ，localhost 是 数据 库 IP 地 址 ，27017 是 数据 库 问 
O, db = client['DB'] 指 癌 需 要 连接 的 数据 库 ，user collection = db.user 1&8] user 集合 (相当 于 关系 
数据 库 的 数据 表 〉。 

如 果 数 据 库 设 置 了 用 户 验 证 ， 在 连接 命令 上 要 添加 验证 信息 : 

import pymongo 

EPEE 

client = pymongo.MongoClient () 

db auth = client.admin 

db auth.authenticate (username, password) 

# 连接 DB 数据 库 

db — client["DB'] 

t HPE 

client = MongoClient ({'mongodb: //username:password@localhost:27017/') 

# 连接 DB 数据 库 

db = client["'DB'] 

上 述 代码 提供 两 种 验证 方式 ， 用 户 验 证 实质 上 是 在 连接 数据 库 的 时 候 ， 将 数据 库 用 户 的 账号 、 
密码 添加 a 到 连接 语句 上 实现 验证 登录 。 


16.4 i4 Ju x Fi 


在 MongoDB 中 ， 篆 用 的 操作 有 添加 文档 、 更 新 文档 、 删 除 文档 和 和 碍 询 文 档 。 文 档 的 数据 结构 
和 JSON 基本 一 样 。 所 有 存储 在 集合 中 的 数据 都 是 BSON 格式 。BSON 是 一 种 类 似 JSON 的 二 进 制 
形式 的 存储 格式 ， 人 简称 Binary JSON. 

文档 添加 方式 分 别 有 单 条 添加 和 批量 添加 ， 实 现代 码 如 下 : 

import pymongo 

import datetime 

import re 

# 创建 对 象 

client = pymongo.MongoClient () 

k 连接 DB 数据 库 


db = clrent|["'DB*] 
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# 连接 集合 user， 集 合 类 似 关 系数 据 库 的 数据 表 
# 如 果 集 合 不 存在 ， 就 会 新 建 集 合 user 
user collection = db.user 
# 设置 文档 格式 (文档 即 我 们 和 常 说 的 数据 ) 
user inio = 4 
"1900 
"gni hor”: mm 
"text": "Python WEHR", 
"tags": p"mongodb", "python", "pymongo^l; 
"date": datetime.datetime.utcnow(}} 


+ 使 用 insert one 单条 添加 文档 ，inserted id 获取 写 入 后 的 id 

# 添加 文档 时 ， 如 果 文 档 尚 未 包含 " id" 键 ， 就 会 自动 添加 "” id"。" ig" 的 值 在 集合 中 必须 是 唯一 的 
# inserted id 用 于 获取 诡 加 后 的 id， 知 不 需要 ， 则 可 以 去 抒 

user id = user collection.1nsert one(user 1nfo).inserted id 

print ("user 1d 15 T, user id) 


# 批 量 添加 
mernis i 
mad" 10l. 
"author": " "y m 
"text": "Python BEFAR", 
"tags": ["mongodb", "python", "pymongo"], 
"date": datetime.datetime.utcnow()], 
" Id": 102, 
"author": " 小 黄 A" 
"text": "Python]JÉEmJpPE A", 
Tags > f"db5"-"Mongodb"."Iran":"PyLthon","modloe"-"Pymongo"], 
"date": datetime.datetime.utcnow()], 
] 
# inserted ids 用 于 获取 添加 后 的 1d， 寿 不 需要 ， 则 可 以 直接 去 抒 
user id = user collection.insert many(user infos).inserted ids 
print (User sd 45 ", Hser 1d) 
代码 实现 了 单条 添加 和 批量 添加 ， 单 条 添加 的 数据 是 user info， 该 数据 是 一 个 字典 数据 结构 ; 
批量 添加 的 数据 是 uesr_infos, 该 数据 是 一 个 字典 数据 组 成 的 列表 。 执行 数据 添加 分 别 由 insert one 
和 insert many 方法 实现 。 数 据 添 加 完成 后 ， 使 用 inserted id 和 inserted. ids 可 返回 添加 后 所 目 动 生 
成 的 id 内 容 。 


16.5 更 新 文档 


更 新 文档 同样 分 为 单条 更 新 和 批量 更 新 ,分别 由 update0 和 update many0 实 现 。 文 档 更 新 需要 
加 入 操作 符 。 操 作 符 的 作用 : 通 种 文档 只 会 有 一 部 分 要 更 新 ,利用 原子 的 更 新 修改 船 可 以 使 得 这 部 
PEDRI. MongoDB 捉 供 了 许多 原子 操作 ， 比 如 文档 的 保存 、 人 修改、 删除 等 。 上 所 谓 原 子 操 
作 ， 就 是 要 么 将 这 个 文档 保存 到 MongoDB, 要 么 没有 保存 到 MongoDB, 不 会 出 现 查 询 到 的 文档 
没有 保存 完整 的 情况 。 更 新 修改 大 是 一 种 特殊 的 键 ， 用 来 指定 复杂 的 更 新 操作 ， 比 如 调整 、 增 加 或 
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者 删除 键 ， 还 可 能 用 于 操作 数组 或 者 内 构 文 档 。 
下 面 介绍 种 用 的 更 新 操作 符 。 


$set: 用 来 指定 一 个 键 的 值 。 如 果 这 个 键 不 存在 ， 就 创建 它 ; 如 果 存 在 ， 就 执行 更 新 。 
$unset: 从 文档 中 移 除 指定 的 键 。 

e $inc: 修改 器 用 来 增加 已 有 键 的 值 ， 或 者 在 键 不 存在 时 创建 一 个 键 。$inc 就 是 专门 来 增加 

(和 减少 ) 数字 的 ， 只 能 用 于 整数 、 长 整数 或 双 精 度 浮 点 数 。 要 是 用 在 其 他 类 型 的 数据 上 ， 
就 会 隆 致 操作 失败 。 

e S$rename: 操作 符 可 以 重 命名 字段 名 称 ， 新 的 字段 名 称 不 能 和 文档 中 现 有 的 字段 名 相同 。 
如 果 文 档 中 存在 A、B 字段 ， 将 B 字段 重 命名 为 A，$rename 会 将 A 字段 和 值 移 除 掉 ， 然 
后 将 也 字段 名 改 为 A。 

e Spush: 如 果 指 定 的 键 已 经 存在 ， 就 会 向 已 有 的 数组 末尾 加 入 一 个 元 素 ; 如 果 指 定 的 键 不 
存在 ， 就 会 创建 一 个 新 的 数组 。 


如 何 使 用 操作 符 实 现 更 新 文档 呢 ? 例如 更 新 上 述 已 添加 的 文档 的 代码 如 下 : 
# 更 新 单条 文档 

# update (MERE, 更 新 内 容 ) 。 筛 选 条 件 为 室 ， 默 认 更 新 第 一 条 文档 

user collection.update( 

UL, 

iI"6set"-r"agthor"- pp T, T text": "Python RUB "11 

) 

# 批量 更 新 文档 ， 只 要 将 方法 update KW update many 即 可 


在 代码 中 ，user collection 是 11.4 市 的 集合 user 对 象 ， 方 法 update 有 两 个 参数 ， 皆 为 字典 格 
式 : 第 一 个 字典 为 筛选 条 件 ， 知 为 空 ， 则 默认 更 新 第 一 条 文档 ; 第 二 个 字典 以 操作 符 为 字典 的 键 ， 
更 新 的 内 容 以 字典 格式 作为 字典 的 值 。 


16.6 查询 文档 


fri X EXE TH] fmnd0 方 法 产生 一 个 得 询 来 从 MongoDB 的 集合 中 得 询 到 数据 。 访 方法 与 其 他 
方法 的 使 用 大 致 相同 ， 使 用 方法 如 下 : 


# 查询 文档 , find({f" ig":101}) ,其 中 {” id":101} 为 查询 条 件 
# 若 查 询 条 件 为 空 ， 则 默认 查询 全 部 

find value = user colilscEron-findíi" id™:101}) 
print(list(find value)) 


如 果 要 实现 多 条 件 查 询 ， 束 需要 使 用 查询 操作 符 :， Sand 和 $or， 使 用 方法 如 下 : 
# AND 条 件 查 询 


find value = user culdecbron.find(i 
"tand": Lt™ id":101}, [Tanthor": PN EI 
)) 

print(list(find value)) 

# OR 条 件 查 询 


en 
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"Sor": "author": "小 黄 A" | "author":" Ih" i] 
)) 
print(list(Find value)) 


方法 find0 传 递 字典 作为 查询 条 件 , 操作 符 $and 和 S$or 作为 字典 的 键 , 字典 的 值 是 列表 格式 的 ， 
列表 中 的 元 厅 以 字典 形式 表示 ， 一 个 元 系 代 表 一 个 合 询 条 件 。 

如 果 要 实现 大 于 、 小 于 或 者 不 等 于 这 类 比较 查询 ， 就 需要 使 用 比较 查询 操作 符 : St (小 于 ) 、 
$lte 〈 小 于 或 等 于 ) 、$gt RF) 、$sgte (大 于 或 等 于 ) $in (in， 人 符合 范围 内 ) 、$nin (not in, 
汇 围 之 外 )， 使 用 方法 如 下 : 

# 如 查找 id>100 而 <102， 即 id=101 的 文档 


find value = user collection. findd 
= yd": {" Sge": 100, "51t" 102} 

}) 

print (list (find value)) 

# 查找 id Æ[100, 101] 

find value = user collection.find(í! 
"ag*:i["sS2pn":-[100, PUT TT 

)) 

print(list(Ffind value)) 


比较 查询 和 多 条 件 查询 存在 明显 的 差别 : 


(1) 多 条 件 碍 询 以 操作 符 为 字典 的 键 ， 比 较 得 询 以 字段 为 字典 的 键 。 
(20 多 条 件 合 询 的 值 是 列表 格式 的 ， 比 较 合 询 的 值 是 字典 格式 的 。 


如 果 使 用 两 者 组 成 一 个 查询 ， 代 码 如 下 : 


tind value — user colieckEron.rindt! 

"bond" cpi dec eImsgro dog "ocu P024: um ugec s c?ne E rOS TURIS 
)) 

print(list(find value)) 


从 代码 中 可 以 看 到 ， 多 条 件 碍 询 操作 符 $and 作为 最 外 层 字 典 的 键 ， 比 较 合 询 操作 和 从 位 于 最 里 
层 字 和 典 。$and 是 将 每 个 条 件 连 接 起 来 , 主要 作用 于 每 个 查询 条 件 之 间 ; 比较 查询 操作 人 符 〈$gt 和 $in) 
使 条 件 按照 茶 个 规则 成 立 条 件 判断 ， 主 要 作用 于 每 个 查询 条 件 里 面 。 

当 得 询 条 件 不 明确 菏 个 值 的 时 候 , 可 以 使 用 模糊 匹配 进行 得 询 。 在 MongoDB 中 实现 模糊 匹配 
南 要 引用 正则 表达 式 ， 代 人 码 如 下 : 


# 模糊 查询 实际 上 是 加 入 正则 表达 式 实现 
EFI ~ 

find value = user collection.find(]{ 
"author": I"Sregoex": moa Xm 

)) 

print(list(find value)) 


tO 

regex - re.compile(".*/A.*") 

iind value = user coll6scbron.trindtil 
"author": regex 

}) 

print (list (find value)) 
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实现 模糊 匹配 有 两 种 不 同 的 方式 ， 两 者 都 需要 引用 正则 表达 陈 来 完成 模糊 功能 。 


方法 一 : 使 用 操作 符 Sregex 作为 字典 的 键 ， 告 诉 数据 库 这 个 查询 语句 要 查找 字段 author HA 
有 “小 ”的 内 容 。 

方法 二 : re.compile 定义 了 一 个 Pattern 实例 ,这 是 正则 表达 式 对 象 ， 将 其 实例 作为 查询 条 件 的 
值 ， 同 样 也 是 告诉 数据 库 需要 查找 字段 author 中 含有 “小 ”的 内 容 。 


我 们 知道 JSON UREZAN JSON, MongoDB 的 文档 也 是 如 此 。 当 查询 文档 中 某 个 字段 网 
套 多 个 文档 时 ， 如 何 将 磐 套 里 面 的 文档 作为 查询 条 件 实现 文档 查询 呢 ? 代码 如 下 : 

E AWRA/ REXI 

# fH B"'tags": I'"db"-"MongodbD", "Tan"-"PyLhon", "modle"-" "Pymongo"] 

# frm EE,HmEfdw ead B Bn 

find value ~ user collectron.fFind(i 

"Ltags.db": "Mongodb" 

)) 

print(list(find value)) 

字段 tags 的 值 是 一 个 字典 类 型 的 数据 ， 也 就 是 说 ， 文 档 中 tags 字段 的 值 谋 套 了 另 一 个 文档 ， 
如 果 碍 询 条 件 是 “db”:“Mongodb”， 了 而 “db” 属 于 字段 tags， 可 通过 “tags.db” 对 其 进行 定位 。 
如 果 “db” 的 值 再 般 套 一 个 字典 ， 那 么 可 用 相同 的 方式 进行 下 一 步 的 定位 ， 代 码 如 下 : 


i 查询 字段 "tads TT z | "rib = { "Mongodb" = "NoSqi n 2 "Mysql "m z "EI } 
"ian":"Pyrtbon". "modlc":"Pymongo"! 


find value = user collection.find(í(! 
"Lags.db.Mongodb": "Nosqi" 
)) 


print(list(find value)) 


16.7 Æ AX »h 4 


MongoDB 是 一 个 基于 分 布 式 文件 存储 的 数据 库 ， 旨 在 为 Web 应 用 提供 可 扩展 的 高 性 能 数据 
存储 解决 方案 ,是 介 于 关系 数据 库 和 非 关 系数 据 库 之 间 的 产品 , 是 非 关系 数据 库 中 功能 最 丰富 的 数 
据 库 。 在 当前 的 朴 虫 程序 中 ， 如 何 操作 MongoDB 也 成 为 爬虫 程序 的 重要 内 容 。 

在 本 章 中 ， 读 者 要 重点 掌握 以 下 内 容 : 

(1) 熟悉 MongoDB 安装 配置 。 
(2) 理解 MongoDB 数据 结构 。 


(3) 掌握 MongoDB 数据 库 的 基本 操作 方法 ， 包 括 添加 文档 、 更 新 文档 、 伍 询 文 档 ， 其 中 : 
e 添加 文档 分 为 单条 添加 和 批量 添加 ， 分 别 由 insert one0 和 insert many) ŽIL, 
e 更 新 文档 分 为 单条 更 新 和 批量 更 新 ， 分 别 由 Update0 和 update manyO 实 现 ， 并 且 掌 握 更 新 
操作 符 的 使 用 。 
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e 查询 文档 由 find0O 实 现 ， 掌 握 比 较 查 询 、 多 条 件 查 询 、 模 糊 查询 和 训 套 查询 。 


实战 : EH 51Job 招聘 信息 


17.4 项 目 分 本 


本 项 目 LEE LCS 轧 ， 通 过 设 定 的 关键 词 与 地 点 来 搜索 站 内 的 招聘 
信息 并 实现 数据 爬 取 ， 这 是 项 目的 爬虫 功能 需求 。 有 具体 说 明 如 下 : 

e 在 浏览 器 访问 S1Job 官方 网 站 (https:Wwww.$1job.comy ), 并 在 搜索 框 输入 关键 词 “Python”， 
地 点 选 为 “广州 ”， 单 击 “ 搜 索 ” 按 钮 进入 搜索 页 。 

e 在 搜索 页 中 ， 所 有 符合 条 件 的 职位 信息 以 列表 的 形式 排序 并 设 有 分 页 显示 。 每 条 职位 信息 
是 一 个 URL 地 址 ， 通 过 URL 地 址 可 以 进入 该 职位 的 详情 页 。 

o 职位 详情 页 也 是 数据 爬 取 的 页 面 ， 慌 取 的 数据 信息 有 : 职位 名 称 、 企 业 名 称 、 待 遇 、 和 福利 
及 职位 要 求 等 。 


项 目的 开发 工具 选择 Requests 模块 和 BeautifulSoup 模块 实现 爬虫 开发 与 数据 清洗 ， 数 据 存储 
选择 Sglalchemy 框架 ， 数 据 库 选择 MySQL. 
下 面 介 绍 本 项 目的 实现 流程 。 


17.2 ”获取 城市 编号 


项 目 开 发 是 从 搜索 页 开始 ， 观 察 搜索 页 的 URL 地 址 可 以 发 现 ，URL 含有 关键 词 “Python” 和 
多 个 数字 编号 ,这些 数字 编写 可 能 代表 某 些 搜 索 条 件 。 为 了 进一步 验证 这 些 数 字 编 号 的 作用 , 将 关 
键 词 保持 不 变 ， 演 试 切换 不 同 的 地 点 ， 比 如 地 点 分 别 选 为 “广州 ”、“ 北 京 ” 和 “上 上海”， 如 图 
17-1 所 示 。 
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C a https;//search.51job.com/list/030200|000000,0000,00,9,99 Python,F 


全 文 》 
Python 


E 


d) 【北京 Python 招聘 ， 求职] -前 ”x + 


c Œ à https//search.51job.com/list010000 000000,0000,00,9 99 Pythorl?. html 
c 地 点 


d 【上 海 ,Python 招 聘 ， 求职] -前 X 十 


E Œ @ https;//search.51job.com/list[020000 000000.0000,00,9,99|Python, 1.htm 


ÈM? 地 点 
Python 上 海 
图 17-1 URL 地 址 变化 情况 


根据 图 17-1 中 的 URL 地 址 及 网 页 内 容 的 变化 ， 可 以 总 结 出 两 个 关键 点 : 


(1) 当选 择 不 同 地 点 的 时 候 ， 网 页 的 URL 地 址 都 会 发 生变 化 ， 从 而 导致 网 页 内 容 随 之 变化 ， 
这 说 明 网 页 内 容 是 通过 网 站 的 服务 器 后 台 生 成 的 ， 并 非 由 Ajax 实现 数据 动态 泻 染 。 

(2) 在 URL 地 址 的 “list” 后 面 ， 首 个 数字 编号 代表 职位 所 在 的 地 点 ， 并 且 每 个 地 方 的 数字 
编号 都 固定 不 变 。 


为 了 得 到 全 国 各 个 城市 的 数字 编写， 在 浏 顺 玲 的 开 友 者 工具 里 ， 单 击 “Network” 选 项 卡 并 刷 
新 搜索 页 ， 重 新 捕 换 搜索 页 的 请 求 信 息 。 得 看 每 个 请 求 信 息 的 啊 应 内 容 ， 从 中 得 找 每 个 城市 的 数字 
编号， 最 终 在 “JS” 选 项 卡 下 找到 全 国 的 城市 编号 ， 如 图 17-2 所 示 。 


@ O € wv O 


Filter 


View: a= LJ Group by frame | LJ Prese 


T) Hide data URLs All XHR 网 CSS Img 


Name X Headers Preview Respo 


|. | common association.js 220180319 
| | merge data c,js?20180319 

B area array c.js?20180319 

| | layer_c.js?20180319 

| | indtype array c.js?20180319 

| | funtype array c.js?20180815 

|. | pointtrack search.js?20180319 


| | ScrollText.js 


| NewScrollText.js 


T 


| co -J Out B Uu N IS 


/* update - 2017/11/07 
created by backstage 
var area={ 
"010000" : "JEH", 
"010100" : " 东城 区 "， 
"010200" : "西城 区 "， 
"010500" ; "FALH", 
"010600" :" £8 K", 
"010700" :" f15xili lx", 
"010800" : " 海 证 区 ”， 
"010900" :"[ ] 3 ;J[X " , 
"011000" : "有 房山 区 ”， 
"011100" :" 通 州 区 " 
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由 上 述 分 析 可 知 ， 只 要 对 图 17-2 的 请 求 地 址 发 送 HITP 请 求 即 可 获取 每 个 城市 的 数字 编号 ， 
并 将 该 请 求 的 啊 应 内 容 转 换 成 字典 格式 , 再 将 字典 的 键 值 进行 互 换 。 由 于 有 息 虫 是 根据 使 用 者 输入 城 
市 名 来 获取 相应 的 数字 编号 ， 再 通过 城市 编写 构建 相应 的 URL 地 址 ， 所 以 将 字典 的 键 值 进行 互 换 
可 方便 数字 编号 的 获取 。 将 城市 的 数字 编号 获取 功能 定义 为 函数 get city code, 函数 的 具体 代码 如 
F: 
import requests 
# 获取 城市 的 城市 编号 
def get city codet): 
ur] = 'https://]j5s.5l]Jobcdn.com/in/j5/2016/Tlayer/area array c.]s' 
r — remeses geruri] 
# 字符 串 转 换 字典 
city dict = eval (r.text.split ("=") [1] .split(;"})}[0]) 
# 字典 的 键 值 互 换 
city dict = [v : k for k, v in city dict.items'{(})} 
return city dict 


17.3 ”获取 招聘 职位 总 页 数 


获取 城市 编号 后 ， 就 可 以 动态 构建 搜索 页 的 URL 地址， 实现 不 同 地 点 的 不 同 关 键 词 的 职位 搜 
索 。 在 爬 取 职位 信息 之 前 ,还 需要 确定 当前 职位 的 总 页 数 ,因为 同一 职位 可 能 会 有 成 千 上 万 条 招聘 
信息 ， 而 这 些 招聘 信息 都 会 进行 分 页 处 理 。 

ln 
通过 总 职位 数 除 以 每 页 的 职位 数 。 两 种 方式 都 可 取 , 但 笔者 认为 后 者 比 前 者 稍 胜 一 筹 ， 因 为 考虑 到 
pad 当 搜 索 的 关键 词 没 有 相关 的 职位 ， 分 页 栏 的 总 页 数 显 示 为 1; 而 总 职位 数 显示 为 0， 通 
过 除法 计算 得 出 总 页 数 为 0， 如 图 17-3 所 示 。 


对 不 起 ， 没 有 找到 符合 你 条 件 的 职位 ! 


上 1 页 ,| 到 第 1 页 确定 


图 17-3 职位 信息 不 存在 


总 页 数 的 获取 若是 选择 总 职位 数 除 以 每 页 的 职位 数 ， 需 要 在 搜索 页 上 获取 总 职位 数 及 计算 每 
页 的 职位 数 ， 从 而 计算 得 出 总 页 数 。 每 页 的 职位 数 在 搜索 页 上 通过 数 数 即 可 获得 , 每 页 的 职位 数量 
ERA 50; 总 职位 数 可 以 在 “Doc” 选 项 卡 里 找到 相应 的 位 置 ， 如 图 17-4 所 示 。 
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ama Aa. un 
XO: SEHE 
Application Security 
Jisable cache Offline Online 


5 Aj 


| [Ev WS Manifest Other 


Preview Response Cookies Timing 


«div class-"rt"» 
</div> 


«div class="rt"> 
¿span ids"rtPrev" classs"dicon Dm"»«/span»«span classs"dw c orange"»1«4j 


图 17-4 查找 总 职位 数 


综合 上 述 分 析 ， 我 们 将 职位 总 页 数 的 获取 定义 为 图 数 get pageNumber， 参 数 为 city code 和 
keyword， 分 别 代表 城市 编号 和 关键 词 ， 国 数 代 但 如 下 : 


import requests 
from bs4 import BeautifulSoup 
import re,math 
# 定义 请 求 头 
headers = I 
'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) 
AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/656.0.3359.1]117 Safari1/537.36'; 
"Host: "Search.51]ob-com' ， 
"Dgrado-tuUSccHuPo-BOHBMIcSES IP 


} 
# 获取 职位 的 总 页 数 ， 参 数 city code ERTAS, keyword 是 职位 关键 字 
def get pageNumber (city code, keyword): 
# 获取 搜索 页 的 网 页 信息 
url — *https://search.»5liob.rom/]1]5t-/' SEE code): 
',000000,0000,00,9,99, ' «str (keyword)-*',2,1.html' 
ro reugucsctsgeriuri. headers headers) 
+ 使 用 BeautifulSoup 进行 数据 清洗 
soup = BeautifulSoup(r.content.decode('gbk'), 'html5lib') 
# 查找 总 职位 数 
find page = soup.frind('div', class ="rt"') .getText () 
# 通过 正则 正则 表达 式 提取 数值 
temp = re.findall (r™ \d+\.2\d*", find page) 
# 计算 总 页 数 并 返回 结果 
if temp: 
pageNumber = math.ceil(int(temp[0])/50) 
return pageNumber 
else: 
return 0 


PKŠ get pageNumber I] 3:332 $8 KEN F: 


d) 痛 先 同 网 站 发 送 HTTP 请 求 并 获取 相应 的 啊 应 内 容 ， 发 送 请 求 的 URL 地 址 为 搜索 页 的 
URL 地 址 ， 而 搜索 页 的 URL 地 址 是 通过 参数 city. code 和 keyword 构建 而 成 。 


184 | 实战 Python WAE 


(2) 然后 从 啊 应 内 容 中 提取 总 职位 数 ， 提 取 方 式 由 BeautifulSoup4 模块 和 re 模块 实现 ， 前 者 
用 于 对 总 职位 数 进行 精准 定位 ， 后 者 用 来 去 除 总 职位 数 的 中 文 内 容 。 

(3) 最 后 将 总 职位 数 和 每 页 的 职位 数 进行 除法 计算 得 出 总 页 数 ， 计 算 过 程 由 math.ceil 方法 实 
现 ，ceil 方法 是 将 计算 结果 的 小 数 点 去 除 并 对 整数 的 个 位 进 一 。 


17.4 疏 取 每 个 职位 信息 


本 节 实 现 所 历 搜索 页 的 全 部 职位 ， 从 而 实现 每 个 职位 的 信息 爬 取 。 整 个 功能 涉及 两 个 遍历 循 
环 : 遍历 总 页 数 和 遍历 每 页 的 职位 信息 ， 有 具体 说 明 如 下 。 
e 遍历 总 页 数 : 通过 函数 get pageNumber 获取 总 页 数 并 对 总 页 数 进行 遍历 处 理 。 每 次 遍历 
需要 重新 构建 搜索 页 的 URL 地 址 ， 使 当前 遍历 的 次 数 对 应 搜索 页 的 页 数 。 构 建 后 的 URL 
地 址 发 送 HTTP 请 求 并 从 响应 内 容 提取 当前 页 面 的 所 有 职位 信息 。 
e 遍历 每 页 的 职位 信息 : 对 当前 搜索 页 的 所 有 职位 的 URL 地 址 进行 遍历 访问 ， 通 过 发 送 
HTTP 请 求 进入 每 个 职位 的 详情 页 ， 在 职位 详情 页 里 爬 取 目标 数据 。 


在 实现 总 页 数 的 遍历 功能 之 前 ， 需 要 分 析 网 页 的 设计 结构 。 在 搜索 页 上 分 别 单 击 分 页 栏 的 不 
同 页 数 ， 观 察 URL 地 址 的 变化 情况 ， 发 现 URL 地 址 某 个 数字 编号 会 随 着 页 数 的 变化 而 变化 ， 如 图 
17-5 所 示 。 


Jd) 【广州 ,Python 招聘 , 求职 ] -前 X — 


= (5 &ü https:;//search.51job.com/list/030200,000000,0000,00,9,99, Python,2]1 J 


d) 【广州 ,Python 招聘 , 求职 ] -前 X — + 


c É- í https://search.51job.com/list/030200,000000,0000,00,9,99,Pytho nm 


dg) 【广州 ,Python 招聘 , 求职 ] -前 X — 


€ (> í https:;//search.51job.com/list/030200,000000,0000,00,9,99 Python aa3ht 
图 17-5 URL 地 址 的 变化 情况 


从 图 17-5 上 的 变化 情况 可 知 ， 关 键 词 “Python ”后 面 第 二 个 数字 代表 页 数 ， 只 要 动态 改变 这 
个 数值 即 可 得 到 不 同 页 数 的 URL 地 址 , 通过 这 些 URL 地 址 可 以 得 到 相应 的 职位 信息 。 以 某 页 的 搜 
索 页 面 为 例 ， 在 开发 者 工具 的 “Doc” 选 项 卡 里 得 找 职位 许 情 页 的 URL 地址， 其 HTML 格式 如 图 
17-6 所 示 。 

在 “Doc” 选 项 卡 的 “Response” 里 查找 某 个 职位 信息 可 以 发 现 ， 职 位 详情 页 的 URL 地 址 是 
在 标签 a， 但 标签 a 没有 特殊 的 属性 值 ， 因 此 直接 对 标签 a 定位 存在 一 定 的 难度 。 接 着 再 看 标签 a 
的 上 级 标签 p， 其 属性 class 的 属性 值 为 t1， 通 过 分 析 属 性 值 tl 得 知 ， 整 个 网 页 内 容 共 有 50 个 这 样 
的 标签 p， 也 就 是 说 职位 信息 可 以 通过 标签 p 定位 ， 再 由 标签 p 定位 到 标签 ao 
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Java/Python/RPA 开发 工程 师 芝 才 环球 企业 咨询 ( 北京 ) 有 限 公 司 广州 0.8-1.5 万 /月 


Network ^ Performance Memory — Application Security Audits 
Group by frame loi Disable cache Offline Online v 


Hide data URLs All | XHR JS t [£73 WS Manifest Other 


«a target="_blank" title-"Java/Python/RPA FA L3" : ?s-01&t-9" 


Dava/Python/RPA 开发 工程 师 
a span> 


几 17-6 ÆRME RA URL 地 址 


根据 搜索 页 的 URL 地 址 构成 规律 以 及 职位 信息 的 定位 方式 ,将 总 页 数 的 遍历 功能 定义 为 函数 
get page, 函数 参数 为 keyword 和 pageNumber, 分 别 代 表 关 键 词 和 总 页 数 ， 实 现代 人 码 如 下 : 


# 遍历 每 一 页 的 职位 信息 
def get page(keyword, pageNumber): 
for p in range (int (pageNumber)): 

url — 'Hbttpscy/fsesgrch.301job.com/l1i5t/" € SEE[CIEy code): 
',000000,0000,00,9,99,' + str(keyword) + ',2,' 4 
SLEP t 1) t "him! 

r  regtests get (url; eaders headiers 

soup = BeautifulSoup(r.content.decode('gbk'), 'html51lib') 

find p = soup.find att('p', class =re.compile('t1'}) 

# 进入 职位 详情 页 获取 数据 

for i ın find p: 

try- 
info dict = None 
print ({1i.find('a'")['href']) 
# 调用 函数 get info 
url = i- lindi a'ii hrei] 
info dict — geE info[urt) 
# 入 库 处 理 
1f info dict: 
insert dp(inlo dict) 
except Exception as e: 

print (e) 
time.sleep(5) 


整个 函数 结构 设 有 两 个 for 循环 ， 并 且 第 二 个 循环 设置 了 try…except 机 制 ， 图 数 说 明 如 下 : 


d) 第 一 个 循环 是 遇 历 总 页 数 ， 每 次 过 有 历 都 会 构建 相应 的 URL 地 址 ， 并 从 URL 地 址 所 对 应 
的 网 页 内 容 提 取 所 有 职位 信息 。 网 页 内 容 使 用 GBK 编码 格式 , 读者 可 在 “Doc” 选 项 卡 的 “Response” 
得 看 标 丛 <head> 即 可 得 知 网 页 的 编码 格式 。 

(2) 第 二 次 循环 是 过 历 当前 搜索 页 的 职位 信息 ， 从 中 提取 职位 详情 页 的 URL 地 址 并 赋值 给 
变量 url. 

(3) 变量 url 以 函数 参数 的 形式 传递 给 函数 get info, KAŽI get info 是 实现 职位 详情 页 的 信息 
爬 取 ， 疏 取 绪 果 以 字典 的 形式 表示 并 赋值 给 变量 info dict. 

(4) 变量 info dict 作为 函数 insert db 的 参数 ， 图 数 insert db 是 实现 数据 入 库 处 理 。 
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(5) try…except 机 制 是 预防 函数 get info 在 爬 取 数据 过 程 中 出 现 异 币 ， 因 为 有 些 企 业 的 职位 
详情 页 比较 特殊 ， 比 如 http//yumchina.zhiye.com/. 


在 上 述 的 分 析 过 程 中 ， 函数 get info 是 实现 职位 详情 页 的 信息 扑 取 。 在 实现 国 数 get info 的 功 
能 之 前 ， 需 要 确定 数据 疏 取 的 位 置 以 及 分 析 职 位 详情 页 的 代码 结构 。 以 某 个 职位 信息 为 例 ， 疏 取 的 
目标 数据 如 图 17-7 所 示 。 
手 游 服务 辣 开 发 工程 师 ( Python) | 


广州 -天 河 区 ”2 年 经 验 本科 ESTA /— 00-1938 


com HE MEI HE C HEC. 


| 职位 信息 


RRE : 

- SE s RH STU: 

- PERRA REDE UELUT ; 

- 协助 组 员 实现 新 玩法 需求 ( 服务 广 部 分 ] . 

任职 要求 : Lr 

- &MobileServerz ES (I LS ; 10000 上 以 上 

-3imCe-, EE Python ; 互联 网 /电子 商务 

- 半年 以 上 开 改 经验 ; 

- REESE SE FHERSESEHEIDUR EIE ， Ej eese 

- BSIOSSREBETIROESEESIR, HHLA — EME ; 

- Bul, SEES, ; E 

- 乒 备 点 好 的 团 以 姜 宰 和 沟通 能 力 ， 相似 职位 
- 能 送 应 手 洲 高 织 度 的 开发 与 工作 压力 。 


职能 类 别 : S BT. " ; 
Ruins disi eia Sagen agi TIBERISURTERT (棋牌 ) 


FE SEES] 


5-2 HF 


图 17-7. fÉHUr H Er ZH 


fe BU ES Bode 7i BR. uw. BME R, 4RMEAEUR]. HRfrxXuvt. LL 

作 地 点 以 及 企业 规模 等 。 在 浏览 器 的 开发 者 工具 的 “Doc” 选 项 卡 可 以 找到 这 些 信 息 所 在 位 置 。 由 
于 疏 取 数据 较 多 ， 本 书 只 列 出 部 分 数据 的 HTML 代码 ， 如 图 17-8 所 示 。 
手 游 服 务 端 开发 工程 师 ( Python ) 1.5-2 万 /月 


网 易 集 团 查看 所 有 职位 


广州 -天 河 区 | 2 年 经 验 | 本 科 | BAFA | 10-19 发 布 


Application Security Audits 
= LJ Group by frame | LJ Preservelog O Disable cache | O Offline Online 可 
data URLs All | XHR JS C55 Img Media Font [mea WS Manifest Other 


Preview Response Cookies Timing 
&div class="cn"> 


«hl title=" 手 游 服务 端 开 皮 工程 师 (Python) "> 
mM (Python! £input value-"181833232" name-"hidJobID" id-"hidJobID" 


beu cdm 5- 25) NUS 
4p class-"cname"» 
£a href-z"https://jobs.51job.com/all/co3 3645991. html" target="_blank" title-"BR4EXEH|" class="catn"> 
隔 易 集团 zem class-"icon b i link"»/em» 
£j» 
< tracK-type-"jobsButtonclick" event-type-"2" class-"i house" href-"https://jobs.51job.com/a 
&/D» 
£p class-"msg ltype" title-"[MHl-Xen[[&&nbsp; &nbsp; |&nbsp &nbsp; 2F e &nbsp ; &nbsp; | &nbsp; &nbsp; Fl &nbsp;4 
PORGESIDdanbsp; &nbsp;span»|«/span*&nbsp;&nbsp; 2 年 经验 &nbsp; 昌 nbspy<spany|<Aspan>&gnbsp;&nbsp; 本科 虽 nbspy&nbsp ;sp 
¿div clas ies jtag"?» 
ddiw class="t1"> 
¿span class="sp "> p — E< span: 
¿span class-"sp4" BP: pan>» 
¿span class="sp" ERa span: 
¿span class="sp "ARE /span» 
¿span class="sp "ipili e span> 


图 17-8 ”目标 数据 的 HTML 代码 
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通过 对 所 有 目标 数据 的 HTML 代码 进行 分 析 ， 发 现 这 些 数据 可 以 通过 class 属性 实现 定位 ， 从 
而 息 取 数据 内 容 ， 实 现 的 代码 如 下 所 示 : 


# 讨 取 职位 详情 页 的 数据 ， 参 数 url 是 职位 详情 页 的 链接 
der get rnfo(url): 
temp dict = {} 
tf '"https://jobs.5ljob.com' in url: 
ro reēguests get (urli, headers headers) 
time.sleep (1.5) 
soup = BeautifulSoup(r.content.decode('gbk'), 'html5lib') 


# 职位 ID 
temp aqlct['" Job id'] = url.split({'.html") [01-.split('/") [1] 
# 企业 名 
temp dict['company name] = soup.find(['a',class —'catn"). 


gebText().-stript) 
# 企业 类 型 、 规 模 、 经 营 范 围 
com tag = soup.find('div', class —"'com tag') .find all{('p') 
for 1 in com tag: 
if 1 Tag 1nsstri)-: 
temp dict['company type'] = i.getText () 
if "1 People" ın str(1): 
temp dict['company scale'] = 1.getText() 
If t'i traàdo' iH Strtri)- 
temp dict['company trade'] = i.getText () 
# 职位 名 称 
temp aqlct[' Job name'] = soup.find(’'hl') .getText () .strip() 
# 职位 薪资 
temp dict['Job pay"] = soup.find('drv', class ='cn'). 
find('strong') .getText t) .strip () 
# 职位 要 求 : 工龄 、 招 聘 人 数 、 发 布 日 期 、 学 历 要 求 
msgltype = soup.tind('p', class ='msg ltype') .getText () .split ("|") 
education = [" 初 中"', "中 专 ",' 中 技 "', "大 专 ', BF ' 本 科 ", "硕士 ",' 博 士 "] 
if msgltype: 
for i in msgltype: 
it "2" dmn 1.strip(: 
temp dict['job years'| = 1.strip() 
gilar "AU Iin istrip: 
temp dict|'job member'] = t.striQipt) 
elik "A4 in i-siripi): 
temp dict|'job date'] = 1.strip() 
elif 1.strip() in education: 
temp dict['job education'] = 1.strip() 
# 企业 福利 待遇 
ti = sonup.ftrnd('div'. class ='t1'}.find alll('span') 
welfare = | 
Dor i in Eb: 
welfare.append(i.getText().strip()) 


temp dict['company welfare'] = '/'.join(welfare) 
+ 上 班 地 点 

bmsg — soup.find[('dQiv', class —'bmsg Inbox") 

if bmsg: 


1f hmsg-Findi'p', class ="fp"): 
temp dict]'job location'] = bmsg.ft:ind('p', class ="fp"). 
getText () .strip () 
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# 职位 的 工作 描述 

find describe = soup.find("'div', class —'bmsg job msg inbox') 
temp = str(ftind describe) .split('<div class-"mtl0"»*) [0] 
Mysoup = BeautifulSoup(temp, 'html5lib') 

temp darctk[|"'job describe'] = Mysoup.getText().stript) 

# 招聘 来 源 

temp dict['recruit sources'] - "MIELH" 

return temp dict 


17.5 数据 存储 


在 上 一 和 中 捉 到 国 数 insert db， 使 用 该 参数 实现 数据 入 库 处 理 。 为 了 区 分 数据 爬 取 与 数据 入 
库 ， 我 们 将 数据 入 库 的 代码 编写 在 Insql.py 文件 中 。 数 据 入 库 使 用 SQLAlchemy 框架 +MySQL 数据 
库 实 现 ， 在 MySQL 里 创建 数据 库 splderdb， 将 数据 库 编码 设 为 utf8mb4。 然 后 根据 函数 get info 
的 返回 值 来 定义 数据 模型 ， 再 通过 数据 模型 在 数据 库 中 创建 数据 表 。 数 据 模型 的 定义 如 下 所 示 : 


import 七 Ime 

from sqlalchemy import * 

from sqlalchemy.orm import sessionmaker 

from sqlalchemy.ext.declarative import declarative base 

from sqlalchemy.dialects.mysql import * 

engine = create engine( 
'mysqi-pymysqi://root:12348010calhost/spiderdb?charset-utf8') 

DBSession - sessionmaker (bind-engine) 

SOLsession = DBSession() 

Base = declarative based 


# 定义 数据 模型 ， 映 射 数据 表 
class table 1lInfo(Basel) : 
tablename = job rie 

id = Column(Integer(), primary key- Truel 
job id = Column (String (100), comment="' 职 位 ID') 
company name = Column(String(100), comment=" 企 业 名 称 ") 
company type = Column(String(100), comment-' 企业 类 型 ' ) 
company scale = Column(String(100), comment-' "企业 规模 ' ) 
company trade = Column (String(100) ，comment=' 企 业经 营 范 围 ") 
company welfare = Column (String (1000), comment=' 企 业 福 利 ') 
job name = Column (string(3000) ,comment=" 职 位 名 称 ") 
job pay = Column(String(100), comment="' 职 位 薪酬 ") 
job years = Column(String(100), comment=' 工 龄 要 求 ') 
job education = Column(String(100), comment-'^fpEK') 
job member = Column(String(100), comment-'18H5 AJ) 
job location - Column (String(3000), comment-' 上班 地 址 ") 
Job describe — cotuamniText. comment-' 工作 描述 ') 
job date = Column(String(100), comment-' Jf H3") 
recruit sources = Column (String(100), comment="' 招 聘 来 源 ') 
log date = Column(String(100), comment-'id3* H HH') 

# 创建 数据 表 


Base.metadata.create all (engine) 
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完成 数据 模型 的 定义 后 ， 接 下 来 实现 函数 insert db 的 功能 代码 。 函 数 insert db 会 对 职位 ID 
进行 判断 ， 如 果 数 据 表 已 有 这 条 数据 ， 则 对 数据 表 的 数据 进行 更 新 ， 任 则 在 数据 表 中 新 增 数据 ， 孙 

# 写 入 数据 库 
def insert dbiinfo dict): 

temp id = info drct[' ob id"] 

# 判断 是 否 已 存在 记录 

info = SQLbsession.query(Lable 1info).filter by(job id-temp rd) .ftrst() 

# 若 存 在 ， 更 新 数据 


if info: 
info.Job id = info dict.get('job id','""') 
info.company name — info dict.get('company name','*) 
info.company type = info dict.get('company type',''") 
info.company trade = info dict.get('company trade', '') 
info.company scale - info dict.get('company scale','') 
info.company welfare = info dict.get('company welfare',''") 
info.job name = info dict.get('job name', '"') 
info.Job pay = info dict.get (Job pay', '*j 
info.Job years = info dict.get('Job years', "') 
into. job eédücaEron — info dict.geb("' job educatron', T1) 
info.job member = info dict.get('job member', '') 
info. job location = info dicb.gert('job locab1on', *'*') 
intro. job describe — rnio dicb.get(' job describe", 17) 
info.recruit sources = info dict.get('recruit sources', ''*)j 


info.Job darte = info dict.get (Job dare', **) 
info.log date -time.strftime('£Y-$m-$d',time.localtime (time.time())) 
# 不 存在 则 新 增 数 据 
else: 
Inset dala = Lable znfot 
job id = info drct.qget('job :id','"j, 
company name-info dict.get('company name',''), 
company type-info dict.get('company type',''), 
company trade-info dict.get('company trade',''), 
company scale-info dict.get('company scale',''), 
company welfare-info dict.get('company welfare',''), 


job name-info dict.get('job name', ''), 

job pay info dict.geti('job pay', ) 

job years-info dict.get('job years', ''), 

job education-info dict.get('job education', ''), 

job member-info dict.get('job member', ''), 

job location-info drct.qet('job location’, **), 

job describe-info dict.get('job describe', ''), 

job date-info dict.get('job date', '"'), 

recrhit sdurces-inro dicE.goLt(i'recrurt Sonrces' , Tj; 


log date-time.strftime('$Y-m-$d', time.localtime (time.time())) 
) 
SQOLsession.add(inset data) 

SOLsession.commit () 
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17.6 ERNE xt 


从 17.2 到 17.4 节 ， 共 定义 了 4 个 图 数 ， 分 别 是 get city code(). get pageNumber(). get info() 
和 get page0。 每 个 函数 实现 的 功能 说 明 如 下 。 

get city code): 获取 城市 编号 ， 可 通过 城市 名 转换 城市 编号 来 构建 搜索 页 的 URL 地 址 。 

e get_pageNumber(): 在 搜索 页 获取 总 职位 数 ， 并 通过 总 职位 数 除 以 每 页 的 职位 数 来 获取 和 总 
RA. HAAA city code 和 keyword， 分 别 代 表 城 市 编号 和 职位 关键 词 。 

e get infoO: 执 取 职位 详情 页 的 数据 ， 并 以 字典 的 形式 返回 。 函 数 参 数 url 是 职位 详情 页 
的 URL 地 址 。 

e get pageO: 遍历 总 页 数 ， 每 次 遍历 是 为 爬 取 当前 搜索 页 所 有 招聘 职位 的 详情 页 地 址 ， 将 
爬 取 的 详情 页 地 址 作为 函数 get_info (的 函数 参数 ， 通 过 调用 函数 get_info() 实现 招聘 
信息 的 爬 取 ， 最 后 再 调用 函数 insert db 进行 入 库 处 理 。 


整个 项 目的 核心 功能 是 由 这 4 AP HR PRIUS AN PE PR 2X. insert. db 共同 实现 ，4 个 函数 的 代码 编 
写 在 爬虫 文件 Sljob.py 中 。 在 本 节 中 ， 将 对 核心 功能 进行 包装 处 理 ， 这 也 是 项 目的 收尾 处 理 。 一 
般 情 况 下 , 项 目的 使 用 者 大 多 数 都 是 非 技 术 人 员 , 在 运行 程序 之 前 , 使 用 者 需要 设置 关键 词 和 地 点 ， 
如 果 使 用 者 在 源码 里 设置 相关 参数 ， 由 于 使 用 者 不 惜 技术 , 很 容易 对 源码 造成 破坏 ， 导 致 程序 无 法 
运行 。 

因此 可 以 为 程序 添加 配置 文件 ， 使 用 者 只 需 对 配置 文件 的 配置 信息 进行 修改 即 可 ， 无 需 改动 
源码， 这 样 可 以 防止 源码 修改 而 引发 的 异 第 问题 。 配 置 文件 的 文件 扩展 名 为 conf， 它 可 文 持 
Windows. Linux 和 MacOS 系统 。 在 爬虫 文件 51job.py 的 同一 目录 下 新 增 配置 文件 S1job.conf， 并 
以 记事 本 的 方式 打开 配置 文件 ， 在 文件 里 编写 以 下 配置 信息 : 

[51job] 

keyword = python, java 

city = 上 州 ,北京 ,上 海 

在 配置 信息 中 ，“[51job]” 是 配置 信息 的 标题 ， 一 个 配置 文件 可 以 设 有 多 个 这 样 的 标题 ， 它 
的 作用 是 方便 程序 对 配置 信息 的 定位 与 查找 。 本 项 目 变 计 的 爬虫 程序 是 根据 上 述 两 个 条 件 进 行 数据 
爬 取 ， 所 以 在 标题 下 分 别 设 有 关键 词 和 地 点 。 每 条 配置 信息 《 即 关 键 词 和 地 点 ) 可 以 设置 多 个 配置 
内 容 ， 每 个 配置 内 容 之 间 使 用 英文 逗号 隅 开 。 

如 宁 设 置 了 多 个 配置 内 容 ， 那 么 爬虫 的 朴 取 方式 是 根据 两 个 配置 内 容 的 组 合 方式 进行 爬 取 ， 
配置 信息 的 内 容 越 多 , 产生 的 组 合 越 多 。 比 如 “python- 厂 州 ”、“python- 北 京 ”、“python- 上 海 ”、 
java- 广州 ”、 “java JER? “java- 上 海 ”…… 以 此 类 推 ， 

完成 配置 文件 51job.conf 的 配置 后 ， 还 需要 对 有 息 虫 文件 S1job.py 进行 修改 。 疏 虫 文件 S1job.py 
只 是 定义 了 4 个 爬虫 国 数 ， 还 需要 实现 配置 文件 的 谈 取 和 程序 的 运行 方式 ， 有 具体 的 代码 如 下 : 

ap name ==" main  ': 

# 读 取 同 一 路 径 的 配置 文件 
cf = configparser.ConfigParser() 
cf.read ("51]ob.conf™) 
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keyword = str(cf.get (51jJob’', "keyword')}) .split(",") 
city = stricf get CabB’, city yy) .SplLit(”,") 
# 程序 的 运行 方式 
for c in city: 
# 获取 城市 编号 
city code = get city code() [c] 
for k in keyword: 
# 获取 总 页 数 
pageNumber = get pageNumber(city code, k) 
# 遍历 总 页 数 
get page(k, pageNumber) 
配置 文件 的 读 取 是 由 Python 的 标准 库 configparser 实现 ， 使 用 configparser 模块 谈 取 配置 信息 
并 将 配置 信息 进行 分 段 截取 ， 使 每 个 配置 内 容 〈 即 关键 词 和 地 上 点) 以 列表 的 元 取 表 示 。 通 过 授 历 列 
K keyword 和 city 即 可 实现 不 同 条 件 组 合 的 数据 讨 取 。 
HiTJÉm fr 51job.py 的 代码 坑 帆 较 长 ， 本 书 在 讲述 过 程 中 只 列 出 相应 的 代码 ， 恋 者 可 能 对 
整个 爬虫 程序 缺乏 整体 认 知 ， 笔 者 建议 谈 者 通过 源码 文件 (源码 可 在 本 书 前 言 的 地 址 下 载 ) 进行 学 
习 与 总 结 。 


17.7 Æ 3X ^85 


本 章 项 目 主 要 讲述 如 何 息 取 前 程 无 忧 的 招聘 信息 ， 通 过 设 定 的 关键 词 与 地 点 来 搜索 站 内 的 招 
聘 信 息 并 实现 数据 讨 取 ， 这 是 项 目的 爬虫 功能 需求 。 具 体 说 明 如 下 : 


(1) 在 浏览 喜 访 问 51Job 官方 网 站 (https://www.51job.com/), 并 在 搜索 框 输入 关键 词 “ Python”, 
地 点 选 为 “广州 ”， 单 击 “ 搜 索 ” 按 钮 进入 搜索 页 。 

(2) 在 搜索 页 中 ， 所 有 符合 条 件 的 职位 信息 以 列表 的 形式 排序 并 设 有 分 页 显示 。 每 条 职位 信 
息 是 一 个 URL 地 址 ， 通 过 URL 地 址 可 以 进入 该 职位 的 详情 页 。 

(3) 职位 详情 页 也 是 数据 疏 取 的 页 面 ， 疏 取 的 数据 信息 有 : 职位 名 称 、 企 业 名 称 、 符 遇 、 广 
利 以 及 职位 要 求 等 。 


项 目 定 义 了 4 个 讨 虫 国 数 和 一 个 入 库 图 数 ， 分 别 是 get city code. get pageNumber()、 
get info. get page0。 每 个 图 数 实现 的 功能 说 明 如 下 

get_city_code0: 获取 城市 编号 ， 可 通过 城市 名 转换 城市 编号 来 构建 搜索 页 的 URL 地 址 。 

* get pageNumber): 在 搜索 页 获取 总 职位 数 ， 并 通过 总 职位 数 除 以 每 页 的 职位 数 来 获取 总 
Rž. AARAA city code 和 keyword， 分 别 代 表 城 市 编号 和 职位 关键 词 。 

e get info: 疏 取 职位 详情 页 的 数据 ， 并 以 字典 的 形式 返回 。 函 数 参 数 url 是 职位 详情 页 的 
URL 地 址 。 

€ get page): 遍历 总 页 数 ， 每 次 遍历 是 爬 取 当前 搜索 页 所 有 招聘 职位 的 详情 页 地 址 ， 将 爬 取 
的 详情 页 地 址 作为 函数 get info0 的 函数 参数 ， 通 过 调用 函数 get. info0 实 现 招 聘 信息 的 中 
取 ， 最 后 再 调用 函数 insert db 进行 入 库 处 理 。 
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e insert dbO: 对 职位 ID 进行 判断 ， 如 果 数 据 表 已 有 这 条 数据 ， 则 对 数据 表 的 数据 进行 更 
新 ， 否 则 在 数据 表 中 新 增 数据 。 


项 目的 开发 工具 选择 Requests、BeautifulSoup 模块 和 SQLalchemy 框架 实现 ,读者 可 以 尝试 使 
用 Requests-HTML 和 Sglalchemy 框架 改写 上 述 爬 虫 程序 。 


18.1 项 目 分 析 


现在 的 音乐 闫 网 站 仅 提 供 歌 曲 在 线 免 费 试听 ， 如 果 下 载 歌 曲 ， 往 往 要 开通 会 员 或 者 收取 版 权 
费用 ， 但 通过 扑 虫 可 绕 开 这 类 收费 问题 ， 直 接 下 载 我 们 所 需要 的 歌曲 。 
本 章 以 QQ 音乐 为 怜 取 对 象 ， 网 站 疏 取 范围 是 全 站 的 歌曲 信息 ， 怜 取 方 式 是 在 歌手 列表 下 获 
取 每 一 位 歌手 的 全 部 歌曲 。 由 于 疏 取 的 数量 较 大 ， 还 会 使 用 并 步 编 程 实现 分 布 式 爬 虫 开 友 ， 以 提高 
整个 爬虫 项 目 按 功能 分 为 爬虫 规则 和 数据 入 库 ， 分 别 对 应 文件 music.py 和 music. db.py. 
疏 虫 规则 是 在 歌手 列表 Chttps://y.qq.com/portal/singer listhtml) 中 按照 字母 类 别 对 歌手 进行 分 
类 ， 授 历 每 个 分 类 下 的 每 位 歌手 页 面 , 然后 获取 每 位 歌手 负面 下 的 全 部 歌曲 信忠。 根据 该 设计 方案 
Ji tH p ORC: 
遍历 每 个 歌手 的 歌曲 页 数 。 
遍历 每 个 字母 分 类 的 每 页 歌手 信息 。 
遍历 每 个 字母 分 类 的 歌手 总 页 数 ， 
遍历 26 个 字母 分 类 和 1 个 特殊 符号 的 歌手 列表 。 


在 功能 上 至 少 需 要 实现 4 次 遍历 ， 但 实际 开发 中 往往 比 这 个 次 数 要 多 。 统 计 人 遍历 次 数 ， 主 要 能 让 
开发 者 对 项 目 开 发 有 整体 的 设计 逻辑 。 项 目 开 发 使 用 模块 化 设计 思想 ， 整 个 项 目 模 块 的 划分 如 下 : 
KAFR. 
歌手 信息 和 歌曲 信息 。 
字母 分 类 下 的 歌手 列表 。 

全 站 歌手 列表 。 
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18.2. Wk d M^ X 


下 载 歌 曲 前 ， 先 要 找到 歌曲 的 相关 信息 ， 才 能 够 确定 歌曲 的 下 载 链 接 。 以 QQ 音乐 中 的 茶 一 
首 歌曲 为 例 (https:/Wy.qq.comym/yqq/song/003OUlho2HcRHC.html) ， 在 Chrome 浏览 器 访问 网 址 ， 
如 图 18-1 所 示 。 


4 QQ 音乐 我 的 音乐 SPN 


专辑 排行 榜 分 类 珊 单 


只 周杰伦 
: JE E RJPRUJEN SR 语种 : 国语 
流派 : R&B 唱片 公司 : TETERA 


dime, 发 行 时 间 : 2016-06-24 


器 评论 (67282) 


图 18-1 歌曲 信息 页 


在 网 页 里 单 击 “ 播 放 ” 按 钮 ， 浏 宽 胡 会 弹出 一 个 新 页 面 ， 在 新 页 和 面 里 打开 开 友 者 工具 并 再 次 
刷新 网 页 ， 在 Netword 的 Media 选项 卡 可 以 找到 歌曲 播放 文件 ， 如 图 18-2 所 示 。 


周杰伦 
告白 气球 - 周杰伦 00:30 / 03:35 
[v a Elements Console "DUTCES Network Performance Memory Application security Audits 
e 3OG E uy Q | View e ~ Group by frame Preservelog W Disable cache Offline Online Y 
Filter Hide data URLs All XHR JS CSS Img WEE Font Doc WS Manifest Other 


rcm 


Name Status Type Initiator 


| C400003mAan0zUy5O.m4a?guid- 1723340412 & vkey-209D26...40CB4061154C68&ul... media 
|. C400003mAan/70zUy50.m4a?guid- 172334041 2& vkey- 209D26...0CB4061154C68&uin... | 206 media 
C400D03mA n m4a ds 334041 A .D40CB4061154C68&... | 206 media 

| .0CBAO61154C68 fuin... | 20€ media 
| 和 28 vkey-209D26...0CB4061154 C68 &uin... 6 media 
|. | €400003OUlho2HcRHC.m4a?guid- 17233404128 vkey- 5DE5B5...7/8B29EB30ADEFOBA6... | 206 media 


图 18-2 歌曲 播放 页 


从 图 18-2 中 发 现 ，Media 选项 卡 的 歌曲 文件 有 很 多 ， 但 播放 文件 只 有 一 个 。 分 析 URL 内 容 发 
现 ， 只 有 一 个 文件 名 与 其 他 的 文件 名 是 不 同 的 ， 如 图 中 的 C400003OUlho2HcRHC.m4a， 我 们 将 其 
URL 复制 到 浏览 占 的 地 址 栏 访问 ， 发 现 歌曲 可 以 播放 ， 如 图 18-3 所 示 。 
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ll 0:05 / 3:35 € 


图 18-3 歌曲 文件 路 径 


从 整个 歌曲 文件 的 URL 结构 分 析 可 知 ， 该 URL 是 通过 GET 请 求 来 访问 歌曲 文件 ， 并 且 设 有 
各 种 请 求 参数 。 若 要 实现 歌曲 下 载 ， 首 先 找 到 URL 的 请 求 参 数 。 将 某 个 请 求 参数 进行 复制 ， 在 
Network 的 其 他 选项 卡 里 ， 分 别 在 每 个 请 求 信息 的 啊 应 内 容 里 查找 这 个 请 求 参 数 ， 以 参数 vkey 的 
值 为 例 ， 在 每 个 请 求 信息 的 响应 内 容 使 用 “Ctlt+F” 进 行 快速 查找 ， 最 终 在 JS 选项 卡 下 找到 该 参 
数 ， 如 图 18-4 所 示 。 


Hide data URLs All XHR Es CSS Img Media Font Doc WS Manifest Other 


md 


mae X Headers Preview iespanse 
一 pesa e — — — — 

emoji.js?max age-2592 ^ pneedbuy: 8 

songlist ebTeb3e.js?ma: premain: 8 

purl: "caseea3oulho2HcRHC.m4a?guid-17233480412&v key 


qblog.js?max age-2592 EE 
qmálfromtag: e 


gethotkey.fcg?g tk-167 

download d/c802oe.|s?n songmid: "eesoulho2HcRHC" 
dialog 1654670 js?max i | 

yqq.js?max age-25920t 


feg v8 album info cp.fc 
wififromtag: ih 
wifiurl: "" 
nag: "^ 


fcg global comment h* 


stats?sld-258495963& = 


Eine £as[: retcode: e 
(34 E c3E0E ervercheck: "fd68e67d5d2af63ca5b8eab316299204" 
qblog js?154046359572 | Server K dése d2af63ca5b8eab3162992€ 
P | hn iA (ol mnm NF nm nmm" " lb Án dT àur,fannvium 


fcg, query. lyric new.fcg: | * 


/ 79 requests | 34.1 KB / ... | F7055E9F2E08BBE1C18408127291747880299D528859560A 156829ECCOOB6478CA721036FDD130B127015C8740DAC12DC7213913DC238497 


图 18-4 ”查找 歌曲 文件 的 请 求 参数 
从 图 18-4 上 发 现 ，purl 的 值 是 歌曲 文件 路 径 的 构成 部 分 ， 只 需 再 加 上 一 个 域名 即 可 得 到 完整 
的 歌曲 文件 路 径 。 而 对 于 域名 的 选择 ，QQ 音乐 提供 了 5 个 可 选 域名 ， 每 个 域名 都 可 以 获取 歌曲 文 
件 ， 这 是 一 种 集群 的 管理 方式 。 从 图 上 的 请 求 信 息 里 可 以 找到 具体 的 域名 ， 如 图 18-5 所 示 。 


5 156£4670 i5? ck: "GOeS5fc93e5l5feel45e69a3eal5cOTflc4" 
dialog, 16146705: 


"http://1isure.stream.qqmusic.qq.com/",..] 


qblog,571539055572379 


J/dL.stcream.qqmusic.qdq.caom,/ 


t-m wM a alla J Em fca? alb - ^irl zÜÓD RN 
cg vo album inTO cp.rTcg:albummid ZUUSRTV 


- — 


ap goa am 


rà L| 


2/amobile.music.tc.i 


E. mé a?guid-/4 a 


Eq d4mEmgeg 


Lu mi 


"61.140.62.210" 


-g giopal. n gt vkey: "F955D4D4D786AAA92423F8050ADCEFG66B8C 18547FBBABE1A1DC1C7DE38CAB7DE2B2B1B7A847E 34 


cg v8 album info cp.fcg?albummid -003RMV (data: (expiration: 89408, login key: "", midurlinfo: [,-], msg: "", retcode: 8,. 
i alal- D r 


图 18-5 歌曲 文件 路 径 的 域名 
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根据 上 述 分 析 ， 目 前 能 确定 歌曲 文件 路 径 的 请 求 参数 是 可 以 在 JS 选项 卡 的 某 个 请 求 信息 里 获 
取 。 我 们 对 这 个 请 求 信息 的 URL 和 请 求 参 数 进行 分 析 ， 发现 它 的 URL 很 长 ， 并且 设 有 复杂 的 请 求 

根据 请 求 参数 的 命名 进行 分 析 ， 并 将 URL 放 到 浏览 器 的 地 址 栏 访 问 ， 然 后 逐一 删除 某 些 参数 
查看 啊 应 内 容 是 否 发 生 改变 ， 若 没 改变 ， 则 该 请 求 参数 就 可 以 直接 去 除 。 同 时 发 现 有 两 个 请 求 参 数 
的 来 源 尚 不 明确 ， 如 图 18-6 所 示 。 


* General 
Request URL: https://u.y.aq.com/cgi-bin/musicu.fcg?callbacksgetplaysongvkey13390594079232132&8g tkz5381&jsonpCallbacksgetplaysongvkey13390594079232132&1og 
inUin-G&hostUin-8&format-jsonp&inCharset-utf8&outCharset-utf-S&notice-O&platform-yqg&needNewCode-O&data-*/B922reqe22*3A€/B*22moduleX22€3A*22CDN. SrfCdnDi 
spatchServerkE22€20X22method€22€3A€22GetCdnDispatch€22*2CX22paramE223€3A4€7BX22gu1d€22€x3Ax4227475275330922€20CX22calltype&22X3A0X20CX22useripX2233A9229229*7D57 
DX2CX22req 0*22*3A4X7B*22moduleX€22X3AX22vkey . GetVkeyServer€22X2CX22method€22X3Ax22CgiGetVkeyX22€20X22paramX22X3AX7BX22gu010€22X3AX227475275330€22x20X2250n 
gnid*22*3A*X5B*220030Ulho2HCRHCX*225*5D*2CX22s0ngtypeX22*3AX5B0X5D*2CX22u1in*€229434*220*22*2032210ginflag*22*3A1*2CX22platform*22*34*22203*225*7D97D9*:2052 2 comm 
22934€X7B€22ui1n€22*3A8X2CX22formatk2253A€22]s50nX22X20€22ct€22€3A20X20X220v€2253A8X7DX7D 
Request Method: GET 
Status Code: & 28e 
Remote Address: 183.3.226.119:443 


Referrer Policy: no-referrer-when-downgrade 
* Response Headers (9) 
* Request Headers (10) 


Y Query String Parameters 


callback: getplaysongvkey13390594079232132 
g ti: 5381 
jsonpCallback: getplaysongvkey13398594879232132 


loginUin: 8 

hostUin: 8 来 源 尚 不 明确 

format: jsonp 

inCharset: utf8 

outCharset: utf-8 

notice: 8 

platform: yag 

needMewCode: & 

data: ("req":("module":"CDN.5rfCdnDispatchServer","method":"GetCdnDispatch","param"|["guid":"7475275330" l'calltype":0,"userip":"")]),"req 8":(["module":"vk 
ey,GetVkeyServer" ,"method" : "CgiGetVkey" , "param": f" guid": "7475275330" , [songmid" ; ["6030U1ho2HcRHC"] "songtype":[80],"uin":"0","loginflag":1,"platform":"2 


0"11,"comm":f"uin":0,"format":"json","ct":20, "cv": € 


图 18-6 请求 信 息 


对 于 尚 不 明确 的 请 求 参 数 guid 和 songmid， 从 命名 方式 来 看 ， 请 求 参 数 songmid 是 代表 歌曲 
的 唯一 标识 值 ， 每 首 歌 曲 的 sonemid 都 是 固定 的 。 而 参数 guld 却 来 目 Request Headers 的 Cookies, 
这 是 一 种 常见 的 反 有 仆 忠 机制， 同时 发 现 每 个 请 求 信息 部 不 是 市 有 Cookies。 

将 歌曲 下 载 定 为 函数 download， 并 设置 函数 参数 guid, songmid 和 cookie dict, 分 别 代表 请 求 
参数 guid. songmid 和 Cookies， 有 具体 代码 如 下 : 


import requests, time 

import math 

from selenium import webdriver 

from selenium.webdriver.chrome.options import Options 

from music db import * 

from concurrent.futures import ThreadPoolExecutor, ProcessPoolExecutor 

# 创建 请 求 头 和 requests 会 话 对 象 session 

headers = I 

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 

AppleWebKit/537.36 (KHTML, like Gecko) Chrome/ 
69.0.3497. 100 Sdfarr/537.36' 
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session = requests.session() 


# 下 载 歌 曲 
def download(guid, songmid,cookie dict): 
# 2A guid XA cookies 的 pgv pvid 
url = 'https://u.y.qq.com/cgi-bin/musicu.fecg? 
loginUin-O0&hostUin-0&format-jsonp&inCharset- 
utf8&outCharset-utf-8&notice-0&platform-yqq& 
needNewCode-0&data-*7/B$22req$225*$3A*/B$22module*$ 
22$3A$22CDN.SrfCdnDispatchServer$2222C$22method$ 
22$3A$22GetCdnDispatch$2222C$22param$222$3A$7B$22 
guid$22$3A$22'«guid-*'$22$2C£22calltype$222$3A0$2C$ 
22userip$22$3A$22£$22$7D$7D$2C$22req 0$22$3A$7B$22 
module$22*$3A$22vkey.GetVkeyServer$22*$2C$22method 
$2253A$22CgiGetVkey$222$2C$22param$222$3A$7B$22guid 
$2253A$22'-«-guid-'$22$2C$22songmid$22$3A$£$5B$22'- 
songmid-'$222$5D$2C$22songtype£$22$3A$5B0£$5D$2C222 
uin$22$3A$220$22$2C$2210ginflag$22$3A1$2C$22platform$ 
22$3A$2220$22$7D$7D$2C$22comm$22$3A$7B$22u1n$222$3A0$ 
2C$22format$22$3A2$22j]s0n$22$2C$22Cct$222$3A20$2C£$22cv$ 


22:,$53A05$ /D$/D' 

r — session.get(url, headers-headers,cookies-cookie dict) 
parl — r.gjson([)t'reg O'T['data"]['mricuEtspnfa' |] TOIT "POETE" ] 
# 下 载 歌 曲 
if purl: 

url = http://isure.stream.qqmusic.ggq.com/$s" % (purl) 

print (url) 

E  regOests geL(url, eadrs headers) 

f = open('song/' + songmid + '.m4a', 'wb') 


F-writeir.content) 
porluscr) 
return True 
else: 
return False 
上 述 代码 导入 了 Python HRR, ixik*E fen fF music.py 所 需 的 模块 ， 而 请 求 头 headers 
会 话 对 象 session 是 整个 文件 的 全 局 变量 。 而 函数 download 一 共 执 行 了 两 次 HTTP 请 求 ， 有 具体 说 
明 如 下 : 


(1) 通过 函数 参数 guid 和 songmid 来 构建 图 18-6 的 URL 地 址 ;然后 对 该 URL Riž GET 请 
求 ， 并 设 有 请 求 头 和 用 户 Cookies 信息 ， 这 样 可 让 QQ 网 站 认为 这 次 请 求 是 合法 的 ， 并 非 是 爬虫 程 
序 ; 最 后 将 得 到 的 啊 应 内 容 并 进行 清洗 ， 提 取 purl 的 值 。 
(2) 判断 pul 的 值 是 否 为 室 ， 由 于 版 权 问 题 ，QQ 首 乐 网 站 对 菏 些 歌 曲 没 有 播放 权限 ， 因 此 
pul 的 值 有 可 能 为 宝 。 如 果 pul HADAT., MAT purl 的 值 来 构建 歌曲 文件 路 径 ， 然 后 同 歌 曲 
文件 路 径 友 送 GET 请 求 ， 将 该 请 求 的 啊 应 内 容 以 字 节 的 形式 与 入 m4a 文件 ， 这 样 可 完成 歌曲 的 下 
载 。 
FK Zt download 的 参数 guid 和 cookie dict 是 来 日 用 户 Cookies fcil, mH Cookies 信息 无 法 
通过 Requests 模块 获取 ， 因 此 ， 我 们 需要 借助 Selenium 实现 。 
通 闻 情况 下 ， 使 用 Selenium 访问 网 站 吏 会 自动 生成 相应 的 用 户 Cookies 信息 ， 但 在 QQ 音乐 
网 站 来 说 , 第 一 次 访问 是 不 会 生成 用 户 Cookies 信息 , 直到 第 二 次 访问 的 时 候 才 会 生成 用 户 Cookies 
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信息 。 在 第 二 次 访问 的 时 候 还 需要 选择 有 用 户 Cookies 信息 的 URL; 因为 QQ 音乐 并 不 是 任何 URL 
都 有 用 户 Cookies 信息 。 
根据 上 述 的 分 析 ， 我 们 将 用 户 Cookies 信息 的 获取 定义 为 函数 getCookies， 了 函数 代码 如 下 : 


# 使 用 Selenium 获取 Cookies 
def getCookies(): 


chrome options = Options () 

E BEDI A ds 2X 
; --headless 是 不 显示 浏览 器 局 动 以 及 执行 过 程 
chrome options.add argument('--headless') 


driver = webdriver.Chrome (chrome options-chrome options) 
# 访问 两 个 URL，QQ 网 站 才能 生成 Cookies 
driver.qeb('htEps-//yv.-dqq.com/ ') 
time.sleep(5) 
# 某 个 歌手 的 歌曲 信息 ， 用 于 获取 cookies， 因 为 不 是 全 部 请 求 地 址 都 有 Cookies 
url = 'https://y.qq.com/n/yqq/singer/0025NhlN2yWrP4.html' 
driver.get (url) 
time.sleep(5) 
cookie = driver.get cookies () 
driver.gquitt) 
# Cookies 格式 化 
print (cookie) 
cookie dict — 11 
for 1 1n COOkIlC: 
cookie dictizx['name']] = 13 ['value*| 
return cookie dict 


国 数 getCookies 在 每 次 请 求 之 间 设 置 了 5 秒 的 等 待 时间， 这 是 为 了 等 竺 网 站 加 载 完成 ， 否 则 
网 站 尚未 加 载 完成 是 无 法 读 取 用 户 Cookies 信息 的 。 现 在 将 函数 getCookies 和 download 结合 使 用 
就 能 实现 单 首 歌曲 下 载 。 在 爬虫 文件 music.py 编写 以 下 代码 并 运行 即 可 下 载 歌 曲 ， 在 运行 代码 之 
前 ， 记 得 在 爬 下 文件 的 路 径 下 创建 song 文件 夹 。 注 意 : 函数 参数 songmid 的 获取 会 在 下 一 蔬 讲 述 。 


if 


name ~=!" main  *- 


cookie dict = getCookies () 

guid = cookie dict['pgv pvid'] 
songmid = '003O0Ulho2HCRHC' 
download(guid, songmid, cookie dict) 


18.3 ”歌手 的 歌曲 信息 


现在 只 要 调用 函数 download 并 传 入 不 同 的 参数 songmid 即 可 下 载 不 同 的 歌曲 ， 本 节 从 歌手 页 
面 来 获取 不 同 歌 曲 的 songmid 。 以 周杰伦 (https://y.qq.com/n/yqq/singer/0025NhIN2yWrP4. 
html#tab=song)〉 为 例 ， 打 开 歌 手 页 面 并 在 开发 者 工具 查找 歌曲 信息 ,分别 在 Doc、XHR 和 JS 里 使 
用 Ctrl+F 快速 查找 某 一 首 歌曲 信息 。 最 终 在 JS 的 某 一 条 请 求 中 找到 歌曲 信息 ， 如 图 18-7 所 示 。 
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IS CSS Img Media Font Doc WS Manifest Other 


| Hide data URLs All XHR 


* Headers Preview | Response Cookies Timing 


_ | musicu.fcg?callback-getUCGI? 332659: 
fcq order singer getnum.fcg?g tk- 16; 


和 | vMusicJsoncallbacksinger track([code: 8, data: 1,.], message: "succ", subcode: o} ) 


code; 8 
* data: (,..) 


B fcg v8 singer track cp.fog?g tk=1679 + list: [fFlisten counti: 0, Fupload time: "2616-06-06 16:21:17", index: 1, isnew: 6, listenCount: 6,..],..] 


musicu.fcg?callbackezgetUCGl8393662! 
| | feg singer mv.fcg?cid- 2053605818:sin 
fcg singer mv.fcg?cid-205360581&g : 


singer id: "A558" 

singer mid: "eez5WhlH2yWrPA" 
singer name; "周杰伦 ” 

total: 811 


message: "succ" 


fca v8 simsinger.fca?utf8- 1&singer rr 
== subcode: & 


emoji.js?max ace-2592D00 


图 18-7 全 部 歌曲 信息 


从 图 18-7 分 析 可 得 : 


(1) total 是 当前 歌手 的 全 部 歌曲 数目 。 

(2) list 是 歌曲 信息 列表 ， 每 页 共 30 首 歌 曲 ， 对 某 首 歌 的 信息 进行 分 析 ， 在 信息 中 找到 歌曲 
标识 特 、 歌 名 、 所 属 专 辑 和 时 长 ,分 别 对 应 songmid. songname. albumname 和 interval， 如 图 18-8 
所 示 。 


pEr pp | 一 1 = 


| | musicu.fcg?callback-getUCGI 7332659: ^ 
“| fcg order singer getnum.fcg?g tk-16, 


"Be3RMaRIliFoYd" 


"nm al a £^ $844 和 人 二 十 二- 
ls] ZH Ia CS 


albummid: 

albumname: 
alertid: 2 
belongCD: 8 
cdIdx: 0 
interval: 
isonly: 1 
label: "A611686018435776513" 

msgid: 14 

pay: {payalbum: 1, payalbumprice: 28080, paydownload: 1, payinfo: 1, 
preview: [trybegin: 65138, tryend: 85421, trysize: 6] 

rate: 31 

singer: [{id: 4558, mid: "8e25MhlM2yWrPA", name: " 

size5 1: 0 

sizel128: 3443771 

sSize320: 8608939 

sizeape: 24929083 

sizeflac: 24971563 

sizeogg: 5081304 

songid: 1807192878 

songmid: "6830Ulho2HcRHC" 

songname: "告白 气球 " 


图 18-8 某 个 歌曲 信息 


对 上 述 请 求 信 息 的 URL 进行 分 析 ， 发 现 URL 设 有 多 个 请 求 参 数 ， 将 URL Sg S qi Slo] Và; 
上 访问 ， 并 对 每 个 请 求 参 数 进 行 删 改 ， 对 比 浏览 器 返回 的 啊 应 内 容 是 否 和 前 面 一 改 ， 最 终 URL 的 
参数 优化 结果 如 图 18-9 所 示 。 

对 图 18-9 上 的 请 求 参数 分 析 得 知 : 


(1) singermid 是 指 歌手 的 mid， 其 作用 与 songmid 相同 ， 用 于 标识 歌手 的 唯一 性 。 

(2) begin 代表 歌曲 页 数 ， 在 网 页 上 单 击 第 二 页 的 时 候 ， 会 触 友 相同 的 GET 请 求 ， 友 现 请 求 
参数 begin 变 为 30， 说 明 页 数 不 是 按 1、2、3…… 计 算 的 ， 而 是 按照 (p-1) X30 的 计算 公式 获取 
页 数 的 。 

(3) num 是 每 页 歌曲 数量 的 间隔 数 。 


fcg v8 singer track cp.fcg?g tk-1679* 
= musicu.fcg?callbackzgetUCGI8393662* 
ícg singer mv.fcg?cid-2053605818in 
| fcg singer mv.fcg?cid-2053605818g | 


|. | fcg v8 simsinger.fcg?utf8- 1 &singer rr 
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| | emoji,js?max age- 2592000 

| | mvlist 6d6eb8a.js?max age-31536000 
“| albumlist 102dad3.js?max age-31536 
|. | gethotkey.fcg?g tk-16795145858Jjson 


| | songlist eb1eb3e.js?max age-315360( 
| qblog.js?max age-25920008&v- 20180. 


“| download d/c802ejs?max age-31536 
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* Response Headers (9) 

* Request Headers (10) 

Y Query String Parameters view source view URL encoded 
g tk: 5381 
jsonpCallback: MusicJsonCallbacksinger track | "> DECIES 


loginUin: 8 
hostUin: ð 
format: jsonp 
inCharset: utf8 
outCharset: utf-8 
notice: 8 
platform: yqq 
needNewCode: Q 


一 全 歌手 的 唯一 值 


order: listen 


begin: 8 — -" 


num: 38 


songstatus: 1 


图 18-9 URL 的 参数 优化 


综合 分 析 ， 只 要 动态 设置 请 求 参数 singermid 和 begin 的 值 ， 束 能 获取 不 同 歌 手 的 全 部 歌曲 信 
恩 。 将 其 功能 定义 为 图 数 get singer songs. KAS singermid 和 cookie dict， 国 数 代 码 如 下 : 
# 获取 歌手 的 全 部 歌曲 


def get singer songs(singermid, cookie dict): 
# 获取 歌手 姓名 和 歌曲 总 数 
url = 'https://c.y.qq.com/v8/fcg-bin/fcgq vB singer track cp.fcg? 
loginUin-O0&hostUin-0&singermid-$s&order-listen&begin-0& 
num-30&songstatus-1' $ (singermid) 
r = session.get (url) 
# 获取 歌手 姓名 
song singer = r.json()['data']['singer name'] 
# 获取 歌曲 总 数 
songcount = r.json(í)['data"][*'totat"] 
# 根据 歌曲 总 数 计算 总 页 数 
pagecount = math.ceil(int(songcount) / 30) 
# 循环 页 数 ， 获 取 每 一 页 歌曲 信息 
for p in range (pagecount): 
url = 'https://c.y.qq.com/v8/fcg-bin/fcg vB singer track cp.fcg? 
loginUin-O0&hostUin-0&singermid-$s&order-listen&begin-$s& 
num-30&songstatus-1' $ (singermid, p * 30) 
r = session.get (url) 
# 得 到 每 页 的 歌曲 信息 
music data = r-j5on()I'data"(T1 Erst* 
# songname- 歌 名 ，ablum- 专 辑 ，interval- 时 长 ，songmid 歌曲 id， 用 于 下 载 音频 文件 
# 将 歌曲 信息 存放 字典 song dict， 用 于 入 库 
Song dict = {} 
for 1 in music data: 


song dict['song name'] = i['musicData']['songname'] 
song dict['song ablum'] = i['musicData']['albumname'] 
song dick['sonq interval'] = :['musicData'][*'1:ntervalt*] 


song dict['song songmid'] ~ i['musicData']['songmid'] 
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song dict["'song srnger'] = song singer 
# 下 载 歌 曲 
quid = cookie dict['pgv pwvid*] 
info = download(guid,song dict['song songmid'],cookie dict) 
# 入 库 处 理 ， 参 数 song dict 
it info: 
insert data {song dict) 
# song dict 清空 处 理 
song dict f] 


函数 get_singer_songs0 用 于 让 取 歌 手 的 全 部 歌曲 ， 代 码 说 明 如 下 ; 


(1) 参数 singermid 代表 歌手 的 唯一 值 ， 只 需要 传 入 不 同 歌手 的 singemmid， 就 能 疏 取 不 同 歌 
手 的 全 部 歌曲 。 

(2) 代码 有 两 个 相同 变量 ul, 第 一 个 是 获取 歌曲 总 数 和 歌手 姓名 , 并 通过 歌曲 总 数 计算 页 数 ; 
第 二 个 是 动态 设置 页 数 ， 获 取 当 前 歌手 每 一 页 的 歌曲 信息 。 

(3) 下载 歌曲 调用 了 18.2 节 的 函数 download， 入 库 处 理 调 用 了 入 库 国 数 insert data, 1% ER 
会 在 后 续 章 节 讲 解 。 


18.4 分 类 歌手 列表 


现在 已 实现 获取 单个 歌手 的 全 部 歌曲 信息 ， 只 要 在 此 功能 的 基础 上 过 历 输入 不 同 歌 手 的 
singermid ， 就 能 获取 不 同 歌 手 的 歌曲 信息 。 从 开发 者 工具 中 对 歌手 列表 ( y.qq.com/portal/ 
singer listhtml) 的 分 析 得 知 ， 歌 手 页 数 有 297 页 ， 每 页 80 位 歌手 ， 全 站 的 歌手 共有 23701 位 ， 如 
18-10 所 示 。 


xesponse 


et de di&82b2cJs* =31 ; : : 
四 SISSE HERE MG T getucGI8208487731863299([singerblist: [data: [area: -1880, genre: -188, index: -1808, sex: -100, ], code: 8], code: 8,.]) 


了 fcg music red dota.fcg?g tk- 1679! code: 8 


.]fcg get profile homepage.fcg?g tk vw sqngerlist: [data: [area: -180, genre: -188, index: -188, sex: -100,.), code: 8] 


code: 8 
icu.fcg?callback- getUuCcal83293 Í 
i E ¥ data: [area: -180, genre: -180, index: -180, sex: -180,.] 
| fg. order singer getlist.fcg?utf8- 1. area: -1090 
musicu.fcg?callback-getUCGl12482 genre: -168 
index: -188 
sex: -109 
| | emaoji.js?max age- 2592000 »singerlist: [ícountry: "Hib", singer id: 60585, singer mid: "aeeaHmbL2aPXWH", singer name: "RHR" pappe 
pager 5d0a829.js?max age-31536C + tags: [area: [fid: -100, name: “全 部 "}，{id; 200, name: “内 地 "}，{id; 2, name: "ER", (id: 5, name; "CE" 


total: 23781 
Tr s z215 DOC 三 
| qblog.js?max age=25920008w=201 Er qs 
qa.js?max age-25920008v -2018. 


B musicu feg?callback-getucalt82904 


图 18-10 ”歌手 信息 


从 图 18-10 上 分 析 可 知 ， singerlist 是 每 页 80 位 歌手 的 信息 列表 ， 每 条 信息 的 singer mid 是 歌 
手 的 singermid。 如 果 获 取 全 部 歌手 的 sngermid， 需 要 循环 23701 次 ， 根 据 项 目 设 计 ， 将 循环 次 数 
按 字 母 分 类 划分 。 

在 歌手 列表 页 上 使 用 字母 A 一 Z 对 歌手 进行 分 类 和 沪 选 , 利用 这 个 分 类 功能 可 以 将 全 部 歌手 分 为 
两 层 循环 : 第 一 层 是 循环 每 一 个 字母 分 类 , 第 二 层 是 循环 每 个 分 类 下 的 总 页 数 ， 拆 分 两 层 循环 主要 
为 异步 编程 提供 切入 点 ， 有 具体 实现 方式 会 在 后 面 讲解 。 

在 网 页 上 单 击 分 类 “A”， 可 在 开发 者 工具 的 JS 标签 看 到 相应 的 请 求 信息 ， 如 图 18-11 所 示 。 
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Hide data URLs All | XHR [S C55 Img Media Font Doc WS Manifest Other 


Name X Headers Preview Response Cookies Timing 


| | musicu.feg?callback-getUCGI31457..  *getuccI3145759015611831([singerList: {data: (area: -188, genre: -180, index: 1, sex: -188,.), code: 8], code: 8,.]) 
code: 8 
¥ singerList: (data: [area: -180, genre: -1080, index: 1, sex: -180,.], code: a8] 
code: 9 
*xdata: [area: -188, genre: -180, index: 1, sex: -180,.] 
area: -180 
genre: -1868 
index: 1 
sex; -180 
*»x55ngerlist: [[country: "", singer id: 348625, singer mid: "8el1kzXmE308iAs", singer name: "Aron's Crusade",..],..] 
TB [country: "", singer id: 348625, singer mid: "GO1k7XmE3081As", singer name: "Aron's Crusade",..] 
country: "" 
singer id: 348625 
singer mid: "aelkzXmE3o81iAs" 
singer name: "Aron's Crusade" 
singer pic: "http://y.gtimg.cn/music/photo new/TGe1Rl15exiseMeeoegelkzXmE308iAs.webp" 
k1: (country: "", singer id: 1861611, singer mid: "60371NksS8g/hlk", singer name: "A Contrablues",..) 


图 18-11 分 类 歌手 信息 


对 上 述 请 求 信 息 的 URL 进行 分 析 ， 发 现 URL 设 有 多 个 请 求 参 数 ， 由 于 该 请 求 是 一 个 GET 请 
求 ， 可 以 在 浏览 器 上 对 URL 的 请 求 参 数 进行 删 减 优 化 处 理 ， 最 终 URL 的 参数 优化 结果 如 图 18-12 
所 示 。 


¥ Query String Parameters 

callback: getuCGI8542338799711131 

g tk: 1679514585 ~ i 州 | IE 的 请 求 参 数 
| jsonpCallback: getuc6I8542338799711131 

Joginlin e —— | 

hostUin: à 

format: jsonp 

inCharset: utT8 

outCharset: utf-8 

notice: 8 

platform: yqq 

needNewCode: à 


data: ["comm":["ct":24,"cv":18888] ," singerList":["module":"Music.SingerlistServer","method":"get singer list","param":["area":-1800,"sex":-100,"genre":-10 


Em WU. er » WU. 5 "m m. 
8," index" :1,"sin":8,"cur page":1]]) 


图 18-12 URL 优化 处 理 


我 们 分 别 单 击 不 同 的 字母 分 类 及 切换 不 同 页 数 ， 分 析 每 个 请 求 信 息 的 请 求 参 数 ， 发 现 请 求 参 
数 index. sin 和 cur page 有 一 定 的 变化 规律 : 


(D index 代表 字母 分 类 A， 从 1 开始 ，2 代表 字母 B， 以 此 类 推 。 

(2) sin 是 根据 页 数 计算 歌手 数量 ， 如 第 一 页 为 0， 每 页 80 位 歌手 ， 第 二 页 为 80， 第 三 页 为 
160， 以 此 类 推 。 

(3) cur page 代表 当前 页 数 ， 从 1 开始 ， 每 页 以 1 递增 ， 如 第 二 页 为 2， 以 此 类 推 。 


综合 上 述 分 析 , 将 分 类 歌手 的 singermid 获取 功能 定义 为 函数 get genre. singer, 代码 如 下 所 示 : 
# 获取 当前 字母 下 全 部 歌手 


def get genre singer (index, page list, cookie dict): 
for page in page list: 
url = 'https://u.y.qq.com/cqi-bin/musicu.fcg? 

loginUin-O0&hostUin-O&format-jsonp&inCharset-utf8& 
outCharset-utf8&notice-O0&platform-yqq&needNewCode-0 
&data-*/Bs22comm$22$3A$/B$22CU$22$3A24$2C$22Ccv$22$3A 
10000$7D$2C$22singerList2222$3A$7B£22module£22223A222 
Music.SingerListServer$222$2C$22method$222$3A£22 
get singer list$2222C$22param$22$3A$7B$22area$22$3A-100$ 
2C$22sex$22$3A-100$2C$22genre£$22$3A-100$2C$221ndex$2223A' 
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+str (1ndex)+'%2C$%$22s51n%22%3A'+s5str ( (page 1] 480) 二 $2685 22 
CHI paget22%3A'+str (page})+ o7IDSIDZSTD* 
r — session.get (url) 
# 循环 每 一 个 歌手 
por k in r.jJson({)['singerList'] ['data"] ['singerlist'"]: 
singermid = k['singer mid'] 
get singer songs(singermid, cookie dict) 


PK% get genre singer 用 于 爬 取 当前 字母 分 类 下 全 部 歌手 的 歌曲 信息 ， 图 数 说 明 如 下 : 


(I) index 代表 字母 的 数字 ， 如 1 代表 字母 A，2 代表 字母 B， 以 此 类 推 。 

(2) page list 代表 当前 字母 分 类 的 总 页 数 。 

(3) cookie dict RHF Cookies 信息 。 

(4) 外 层 for 循环 用 于 遍历 当前 分 类 的 总 页 数 。 

(5) 内 层 for 循环 用 于 遍历 当前 分 类 每 页 每 位 歌手 的 singermid， 并 调用 函数 get. singer songs 
获取 每 一 位 歌手 的 全 部 歌曲 。 


18.5 ”全 站 歌手 列表 


现在 得 到 国 数 get genre singer， 只 需 传 入 不 同 的 函数 参数 index 和 page list 就 能 获取 不 同 分 
类 的 歌手 列表 。 因 此 通过 授 历 26 个 字母 和 特殊 符号 # 即 可 实现 ， 将 这 个 这 历 定 义 为 图 数 
get all singer， 有 具体 的 代码 如 下 : 


def get all singer(): 
# 获取 字母 A-z 全 部 歌手 
cookie dict = getCookies|() 
for index in range(1, 28): 
# 获取 每 个 字母 分 类 下 总 歌手 页 数 
url = 'https://u.y.qq.com/cqi-bin/musicu.fcqg? 
loginUin-O&hostUin-0&format-jsonp&inCharset- 
utf8&outCharset-utf-8&notice-0&platform-yqq& 
needNewCode-0&data-*/B$22comm$22*$3A$7/B$22ct$22 
$3A24$2C$22cv$22$3A10000$7D$2C$22s1ngerList£22 
$3A$7B$22module£222$3A£22Music.SingerListServer 
$22$2C$22method$22$3A$22get singer l1st$22$2C$ 
22params$22$3A$7B$22areas$22*$3A-100$2C*$22sex*$225* 
3A-10022C$22genre$22$3A-100$2C2221ndex$2223A' 
+ str(index) + '£$2C$22s1n2$22$3A0$2C£$22cur page 
$2253Al15$/D$/DS$7/D' 
r — session.get(url, headers-headers) 
total = r.j]son({) ['"singerList"] ['data']['"total"] 
pagecount = math.ceil(int(total) / 80) 
page list = [x for x in range(1, pagecount-*1)] 
# 获取 当前 字母 下 全 部 歌手 
get genre singer(index, page list, cookie dict) 
# 主 程序 运行 
ACE name == * gain T 
get all singer() 
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FR get all singer 的 功能 是 构建 参数 index, page list 和 cookie dict， 有 具体 说 明 如 下 : 
(1) H KX getCookies， 获 取 用 户 Cookies 信息 ， 将 其 作为 参数 cookie dict. 
(2) 执行 for 循环 27 R, WAMA 1 开始 至 27 结束 ， 循 环 次 数 代表 参数 index. 
G) 每 次 循环 代表 每 个 字母 ， 在 当前 循环 下 ， 通 过 发 送 请 求 来 获取 当前 字母 的 歌手 总 页 数 。 
(4) 将 总 页 数 生 成 列表 结构 ， 作 为 参数 page list. 
(5) 调用 函数 get genre singer， 从 而 实现 全 站 歌曲 下 载 。 
上 述 函 数 get all singer 也 是 整个 项 目 程序 的 运行 入 口 ， 程 序 运行 执行 函数 的 顺序 如 下 : 
get all singer): 循环 26 个 字母 和 特殊 符号 #， 构 建 参 数 并 调用 函数 get genre singer. 


* get genre singer(index, page list, cookie dict): 遍历 当前 分 类 总 页 数 ， 获 取 每 页 每 位 歌手 的 
歌曲 信息 。 

€ cet singer songs(singermid, cookie dict); 实现 歌手 的 歌曲 入 库 和 下 载 。 

è download(guid, songmid, cookie dict); 下 载 歌 曲 。 

€ getCookies: 使 用 Selenium 获取 用 户 Cookies 信息 。 

e insert data(song dict); 数据 入 库 处 理 。 


每 个 函数 之 间 通 过 层 层 的 调用 来 实现 整个 网 站 的 歌曲 下 载 和 数据 入 库 ， 每 次 函数 调用 都 会 传 
入 不 同 的 函数 参数 ， 使 得 函数 之 间 和 存在 一 定 的 关联 。 


18.6 数据 存储 


在 逻辑 功能 实现 过 程 中 发 现 数 据 入 库 使 用 的 是 函数 insert_data, 该 函数 主要 存放 在 music. db.py 
H, APEH SQLAlchemy 实现 数据 入 库 。 

根据 爬虫 规则 分 析 ， 六 库 的 数据 有 歌 名 、 所 属 专 辑 、 时 长 、 歌 曲 mid《〈 下 载 歌 曲 文件 以 歌曲 
mid MA) 和 歌手 姓名 。 针 对 所 疏 取 的 数据 及 性 质 ， 数 据 库 命 名 如 表 18-1 所 示 。 


表 18-1 song 数据 表 
强 e —— —  — 


歌手 姓名 


根据 数据 库 的 命名 ，SQLAIlchemy 映射 数据 库 及 因数 insert. data 的 代码 如 下 : 


from sqlalchemy import * 
from sqlalchemy.orm import sessionmaker 
from sqlalchemy.ext.declarative import declarative base 


# 连接 数据 库 
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engine-create engine ("mysql-«pymysql://root:1234810calhost: 
3306/music db?charset-utf9") 
# 创建 会 话 对 象 ， 用 于 数据 表 的 操作 


DBSession = sessionmaker (bind-engine) 

SOLsession = DBSession() 

Base = declarative baset) 

# 映射 数据 表 

class song (Base): 
# 表 名 

tablename = 

# 字段 、 属 性 
song id = Column(Integer, primary key-True) 
song name = Column(String(50)) 
Song ablum — Column (String (50)) 
song interval = Column (String (50)) 
song songmid = Column (String (50)) 
song singer = Column (5tring(50)) 

# 创建 数据 表 


Base.metadata.create all(engine) 
FENKA insert data 
def insert data (song dict): 


# 连接 数据 库 


engine = create engine ("mysql-«pymysql://root:1234Q810ocalhost: 


3306/music db?charset-utf8") 
# 创建 会 话 对 象 ， 用 于 数据 表 的 操作 
DBSession = sessionmaker (bind-engine) 
SOLsession = DBSession() 
data = songl 
song name = song dict['song name'], 
song ablum = song dict|'song ablum']|, 
Song interval = song dict['song interval'], 
Song songmid = song dict['song sonamid"], 
song singer = song dict['song singer'], 
) 
SOLsession.add (data) 
SQOLsession.commit () 


PK% insert data 主要 对 传递 的 参数 song dict 进行 入 库 处 理 ， 参 数 song dict 为 字典 格式 。 TEK 


数 里 ， 香 新 创建 新 的 数据 库 连 接 ， 这 样 做 的 目的 是 为 寞 步 编程 而 做 准备 的 。 


将 上 述 代码 存放 在 music db.py 文件 中 ,在 music.py F H AEA music. db.py 的 图 数 insert. data 


即 可 实现 数据 入 库 。 


18.7 ”分布 式 息 虫 


18.7.1 分 布 式 概 念 


息 虫 的 仆 取 效率 有 是 实际 生产 中 一 个 重要 的 考虑 因 系 ， 时 间 束 是 金钱 ， 更 是 一 个 企业 能 够 生存 
思想 ， 


下 来 的 准则 之 一 。 为 了 提高 爬虫 的 效率 ， 本 布 为 大 家 介绍 一 些 异 步 编程 的 开 友 


MS 3 


简单 地 说 ， 就 
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是 利用 多 进程 和 多 线程 实现 爬虫 开发 。 

很 多 读者 对 Python 的 多 线程 有 一 定 的 误解 ， 因 为 Python 执行 环境 大 部 分 依赖 于 GIL， 而 GIL 
限制 了 多 线程 的 功能 。 

需要 明确 的 一 点 是 ，GIL 并 不 是 Python 的 特性 ， 它 是 在 实现 Python Hrá (CPython) 时 所 
引入 的 一 个 概念 。 就 好 比 C+H+ 是 一 套 语言 (语法 ) 标准 ， 但 是 可 以 用 不 同 的 编译 器 来 编译 成 可 执 
行 代码 。 有 名 的 编译 器 有 GCC. INTEL CH, Visual C++ 等 。Python 也 一 样 ， 同 样 的 代码 可 以 通过 
CPython、PyPy、Psyco 等 不 同 的 Python 执行 环境 来 执行 。 像 其 中 的 JPython 就 没有 GIL。 然 而 因 
为 CPython 是 大 部 分 环境 下 稚 认 的 Python 执行 环境 , 所 以 在 很 多 人 的 概念 里 CPython Wi Python, 
也 莽 想 当然 地 把 GIL 归结 为 Python 语言 的 缺陷 ， 其 实 Python 完全 可 以 不 依赖 于 GIL. 

由 于 物理 上 的 限制 ， 各 个 CPUJ 商 在 核心 频率 上 的 比赛 已 经 被 多 核 所 取代 。 为 了 更 有 效 地 利 
用 多 核 处 理 器 的 性 能 , 就 出 现 了 多 线程 的 编程 方式 , 而 随 之 带 来 的 就 是 线程 则 数据 一 臻 性 和 状态 同 
步 的 困难 。 

为 了 利用 多 核 ，Python 开始 支持 多 线程 ， 而 解决 多 线程 之 间 数 据 完整 性 和 状态 同步 的 最 简单 
的 方法 就 是 加 锁 。 于 是 有 了 GIL 这 把 超级 大 锁 ， 而 当 越 来 越 多 的 代码 库 开发 者 接受 了 这 种 设 定 后 ， 
他 们 开始 大 量 依 赖 这 种 特性 《〈 即 默认 Python 内 部 对 象 是 thread-safe 的 ， 无 须 在 实现 时 考虑 额外 的 
内 存 锁 和 同步 操作 ) 。 

Python 在 设计 之 初 就 考虑 到 要 在 解释 器 的 主 循环 中 同时 只 有 一 个 线程 在 执行 , 即 在 任意 时 刻 ， 
只 有 一 个 线程 在 解释 器 中 运行 。 对 Python 虚拟 机 的 访问 由 全 局 解释 器 锁 〈GIL ) 来 控制 ， 正 是 这 个 
锁 能 保证 同一 时 刻 只 有 一 个 线程 在 运行 。 

在 多 线程 环境 中 ，Python 解释 器 按 以 下 方式 执行 : 


(1) XB. GIL. 

(20 切换 到 一 个 线程 去 运行 。 

(3) 运行 : 指定 数量 的 字 节 人 码 指令 或 者 线程 主动 让 出 控制 (可 以 调用 time.sleep(0)) 。 
(4) 把 线程 设置 为 睡眠 状态 。 

(5) 解锁 GIL, BRER UEMA H. 


有 人 认为 Python 的 多 线程 比较 “鸡肋 ”， 这 种 说 法 只 是 相对 而 言 ，Python 是 仅 有 的 支持 多 线 
程 的 解释 型 语言 (比如 Pel 的 多 线程 是 残疾 的 ，PHP 没有 多 线程 ) 。 相 对 自身 而 言 ， 如 果 代 码 是 
CPU 密集 型 ， 并 且 是 线性 执行 ， 在 这 种 情况 下 多 线程 就 是 “鸡肋 ”， 效 率 可 能 还 不 如 单线 程 ; 如 
果 代 但 是 IO 密集 型 的 ， 多 线程 可 以 明显 提高 效率 ， 例 如 讨 虫 ， 在 绝 大 多 数 时 间 都 在 等 竺 服务 右 返 
回 数据 和 频繁 的 IO 数据 读 写 。 


18.7.2 并 发 库 concurrent futures 


Python 标准 库 为 我 们 提供 了 threading 和 multiprocessing 模块 编写 相应 的 多 线程 /多 进程 代码 。 
从 Python 3.2 开始 ， 标 准 库 提 供 了 concurrent.futures 模块 ， 它 提供 了 ThreadPoolExecutor 和 
ProcessPoolExecutor 两 个 类 ， 实 现 了 对 threading 和 multiprocessing 更 高 级 的 抽象 ， 对 编写 线程 池 / 
进程 池 提 供 了 直接 的 文 持 。 

下 面 通 过 简单 的 例子 讲解 如 何 使 用 coneurrent.futures， 代 人 码 如 下 : 
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* FA concurrent. futures 模块 
from concurrent.futures import ThreadPoolExecutor, ProcessPoolExecutor 
import datetime 


# 线程 的 执行 方法 
def print value (value): 
print('Thread' + str(value)) 


# 每 个 进程 里 面 的 线程 

ger myThread (value): 
Thread = ThreadPoolExecutor (max workers-2) 
Thread.submit(print value, datetime.datetime.now()) 
Thread.submit(print value, datetime.datetime.now()) 


# 创建 两 个 进程 ， 每 个 进程 执行 myThread 方法 ，myThread 主要 将 每 个 进程 通过 线程 执行 
# 如 果 不 填 写 max workers=2， 根 据 计 算 机 的 CPU 核 数 创 建 进 程 ， 如 果 四 核 就 创建 4 个 进程 
def myProcóossrp- 

pool = FrocessFoolExecutor (max workoers-:) 

pool.submit (myThread, datetime.datetime.now()) 

pool.submit (myThread, datetime.datetime.now()) 


if name =m A main t 
myProcess () 
在 上 述 代 码 中 ， 创 建 了 进程 ProcessPoolExecutor 和 线程 ThreadPoolExecutor， 其 中 在 每 个 进程 
中 叉 创 建 了 两 个 线程 。 下 面 简 单 讲述 一 下 concurrent.futures 属性 和 方法 。 


(1) Executor: Executor 是 一 个 抽象 类 ， 它 不 能 被 直接 使 用 。 为 具体 的 异步 执行 定义 了 基本 
的 方法 : ThreadPoolExecutor 和 ProcessPoolExecutor 继承 了 Executor， 分 别 被 用 来 创建 线程 池 和 进 
程 池 的 代码 。 

(2) 创建 进程 和 线程 之 后 ，Executor 提供 了 submit() fll map0 方 法 对 其 操作 。submitO0 和 mapO 
最 大 的 区 别 是 参数 类 型 ，map0O 的 参数 必须 是 列表 、 元 组 和 迭代 器 的 数据 类 型 。 

(3) Future: 可 以 理解 为 一 个 在 未 来 完成 的 操作 ， 这 是 异步 编程 的 基础 。 通 茹 情况 下 ， 执 行 
IO 操作 和 访问 URL 时 ， 在 等 待 结果 返回 之 前 会 产生 阻塞 ，CPU 不 能 做 其 他 事情 ， 而 Future 的 引 
入 帮助 我 们 在 等 竺 的 这 段 时 间 可 以 完成 其 他 的 操作 。 


18.7.3 NAAR 


RAE, EREE BIZ Y BRAZGOUEPSSIKUKNHA, AEE EA RREN 
况 下 运行 。 如果 将 这 27 次 循环 分 为 27 个 进程 同时 执行 ,每 个 进程 只 需 执 行 对 应 的 字母 分 类 , 假设 
执行 一 个 字母 分 类 的 疏 取 时 间 相 同 ， 那 么 多 进程 并 发 的 效率 是 单 进程 的 26 倍 。 

除了 运用 多 进程 之 外 ， 项 目 代 码 大 部 分 是 IO 密集 型 ， 那 么 在 每 个 进程 下 使 用 多 线程 也 可 以 提 
高 每 个 进程 的 运行 效率 。 Dm 实现 ， 第 一 层 是 循环 每 个 分 类 字母 ， 现 将 每 个 
分 类 字母 作为 一 个 单独 进程 处 理 ; 第 二 层 是 循环 每 个 分 类 的 歌手 总 页 数 , 可 将 这 个 循环 使 用 多 线程 
处 理 。 假 设 每 个 进程 使 用 10 条 线程 eratis 具体 看 实际 需求 ) ， 那 么 每 个 进程 的 效 
率 也 相对 提高 10 倍 。 


208 | 实战 Python WAWE 


分 布 式 策略 考虑 的 因素 有 网 站 服务 器 负载 量 、 网 速 快 慢 、 硬 件 配置 和 数据 库 最 大 连接 量 。 举 
个 例子 ， 礁 取 某 个 网 站 1000 万 数据 ， 从 数据 量 分 析 ， 当 然 进程 和 线程 越 多 ， 疏 取 的 速度 越 快 。 但 
往往 忽略 了 网 站 服务 器 的 并 发 量 ， 假 设 设 定 10 个 进程 ， 每 个 进程 200 条 线程 ， 每 秒 并 发 量 为 
200x10=2000， 硅 网 站 服务 器 并 发 量 远 远 低 于 该 并 发 量 ， 在 发 送 请 求 到 网 站 的 时 候 ， 束 会 出 现 卡 死 
的 情况 ， 导 致 请 求 超时 (即使 对 超时 做 了 相应 处 理 ) ， 无 形 之 中 增加 了 等 待 时 间 。 除 此 之 外 ， 进 程 
和 线程 越 多 ， 对 运行 肘 虫 程序 的 系统 的 压力 越 大 ， 知 涉及 数据 入 库 ， 还 要 考虑 并 发 数 是 否 超出 数据 
库 的 最 大 连接 数 的 情况 。 

根据 上 述 分 布 式 芝 上 略 ， 在 music db.py 中 添加 如 下 代码 : 

# 多 线程 


def myThread(index, cookie dict): 
# 每 个 字母 分 类 的 歌手 列表 页 数 
url = 'hbttps://u.y.qq-com/cgi-bin/musicu.fcg? 
loginUin-O0&hostUin-0&format-jsonp&inCharset- 
utf8&outCharset-utf-8&notice-0&platform-yqq& 
needNewCode-0&data-$/B$22comms$22$3A$ /B$22ct*$2 
2$53A24$2C$22cv$22$3A10000$7D$2C£$22s1ingerList$ 
22$3A$7B$22module$22$3A£$22Music.SingerListServer 
$22$2C$22method222$3A£22get singer 1list£22$2C$222 
param$22$3A$/B$22area$22$53A-100$2C$2256e6x*$22$3A-1 
00$2C$22genre$22$3A-10022C$221ndex$22$3A' + 
str (index) + '$2C$22s1n$222$3A0$2C$22cur page£22$ 
3Al$S7DS$/7DS$7D' 
r = session.get(url, headers-headers) 
total = r.:json(J['ssinqgerbist']['data'||'totat'] 
pagecount = math.ceil(int(total) / 80) 
page list = [x for x in range(1, pagecount-41)] 
thread number = 10 
# 将 每 个 分 类 总 页 数 平 均 分 给 线程 数 
list interval-math.ceil(len(page list)/thread number) 
# 设置 线程 对 象 
Thread = ThreadPoolExecutor (max workers=thread number) 
for i in range(thread number): 
# 计算 每 条 线程 应 执行 的 页 数 
start num = list interval * i 
if list interval * (i + 1) <= len(page list): 
end num = list interval * {i t 1) 
else: 
end num = len(page list) 
# 每 个 线程 各 自 执 行 不 同 的 歌手 列表 页 数 
Thread.submit (get genre singer, index, 
page list[start num: end num],cookie dict) 


# 多 进程 
def myProcess(): 
with ProcessPoolExecutor (max workers-27) as executor: 
cookie dict = getCookies() 
for index in range (1l, 28): 
# 创建 27 个 进程 ， 分 别 执行 A-Z 分 类 和 特殊 符号 # 


executor.submit(myThread, index, cookie dict) 
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# 主 程序 运行 
1f name zc RI HR ETE 


myProcess() 
代码 中 定义 了 函数 myProcess 和 myThread， 分 别 实现 多 进程 和 多 线程 。 


(1) 多 进程 函数 myProcess: 主要 是 循环 字母 A~Z 和 符号 #, 将 每 个 字母 独立 创建 一 个 进程 ， 
每 个 进程 执行 函数 是 myThread， 参 数 是 当前 的 分 类 字母 和 用 户 Cookies 信息 。 

(2) 多 线程 函数 myThread: 首先 传 入 参数 index 来 获取 当前 分 类 的 歌手 总 页 数 ， 然 后 得 到 的 
总 页 数 和 设 定 的 线程 数 计算 每 条 线程 应 执行 的 页 数 ,， 最 后 过 历 设 定 的 线程 数 ,， 让 每 条 线程 执行 相应 
的 页 数 。 例 如 总 页 数 100 页 ，10 条 线程 ， 每 条 线程 应 执行 10 页 ， 第 一 条 线程 执行 0 一 10 页 ， 第 二 
条 线程 执行 10—20 页 ， 以 此 类 推 。 线 程 调用 的 函数 是 get genre singer. 


在 实现 分 布 式 爬虫 的 时 候 ， 必 须 注意 的 是 : 


(1) 全 局 变量 不 能 放 在 二 name ==' main  ' 中 ， 因 为 使 用 多 进程 的 时 候 ， 新 开 的 进程 不 
会 在 此 获取 数据 。 

(2) 使 用 SQLalchemy 入 库 最 好 重新 创建 一 个 数据 库 连 接 ， 如 果 多 个 线程 和 进程 共同 使 用 一 
个 连接 ， 束 会 出 现 寞 汕 。 

(3) 分 布 式 策略 最 好 在 程序 代 人 码 的 最 外 层 实现 。 例 如 在 项 目 中 ， 函 数 get singer songs 里 有 
两 个 for 循环， 不 建议 在 此 使 用 分 布 式 处 理 ， 在 代码 底层 实现 分 布 式 不 是 不 可 行 ， 只 是 代码 变动 太 
大 ， 而 且 考 虑 的 因素 较 多 ， 代 码 维护 相对 较 难 。 


18.8 7k x4 ha 


本 章 以 QQ PARZSJIERBON 9, EREEREER RERE TIER URSE — f 
SAT E ARES. RUIRJTEGADUT ACER. WEH HERE SCBLA TR NJTE RT. ohen RRE. 
PEEL ER e 3EIEUA P PLE: 


1. 项 目 实 现 的 功能 


(1) download(guid, songmid, cookie dict): 歌曲 下 载 ， 这 是 爬虫 最 搬 层 的 功能 。 
(2) get singer songs(singermid, cookie dict): 将 歌手 的 歌曲 信息 入 库 和 歌曲 下 载 。 
(3) get genre singer(index, page list, cookie dict): 获取 字母 分 类 的 全 部 歌手 和 歌曲 信息 。 
(4) get all singer): 循环 26 个 字母 和 特殊 符号 #， 构 建 参 数 并 调用 图 数 get genre singer. 
(5) insert data(song dict): 将 爬 取 的 歌手 和 歌曲 信息 入 库 处 理 。 
(6) myProcess(: 每 个 字母 分 类 创建 一 个 单独 进程 运行 。 
(7) myThread(index, cookie dict): 每 个 进程 使 用 多 线程 息 取 数据 。 
2. 分 布 式 苹 略 考虑 的 因素 
分 布 式 策略 考虑 的 因素 有 网 站 服务 器 负载 量 、 网 速 快慢 、 硬 件 配置 和 数据 库 最 大 连接 量 。 举 
^r. mE ms: 1000 万 数据 ， 从 数据 量 分 林 ， 当 然 进程 和 线程 越 多 ， 爬 取 的 速度 越 快 。 但 
往往 忽略 了 网 站 服务 器 的 并 发 量 ， 假 设 设 定 10 个 进程 ， 每 个 进程 200 条 线程 ， 每 秒 并 发 量 为 
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200x10=2000， 硅 网 站 服务 器 并 发 量 远 远 低 于 该 并 发 量 ， 在 发 送 请 求 到 网 站 的 时 候 ， 束 会 出 现 卡 死 
的 情况 ， 导 致 请 求 超时 (即使 对 超时 做 了 相应 处 理 ) ， 无 形 之 中 增加 了 等 待 时 间 。 除 此 之 外 ， 进 程 
和 线程 越 多 ， 对 运行 朴 虫 程序 的 系统 的 压力 越 大 ， 知 涉及 数据 入 库 ， 还 要 考虑 并 发 数 是 否 超出 数据 
库 的 最 大 连接 数 的 情况 。 

3. 实现 分 布 式 疏 虫 的 注意 事项 

CD 全 局 变量 不 能 放 在 过 name ==' main ' 中 ， 因 为 使 用 多 进程 的 时 候 ， 新 开 的 进程 不 
会 在 此 获取 数据 。 

(2) 使 用 SQLalchemy 入 库 最 好 重新 创建 一 个 数据 库 连接 ， 如 果 多 个 线程 和 进程 共同 使 用 一 

分 布 式 策略 最 好 在 程序 代码 的 最 外 层 实 现 。 例如 在 项 目 中 ,函数 get singer songs 里 有 两 个 for 
循环 ， 不 建议 在 此 使 用 分 布 式 处 理 ， 在 代码 底层 实现 分 布 式 不 是 不 可 行 ， 只 是 代码 变动 太 大 ， 而 且 
考虑 的 因素 较 多 ， 代 码 维护 相对 较 难 。 


实战 : 12306 HÆRE 


19.1 M H ^x Bt 


12306 抢 票 是 爬虫 开发 中 非常 经 典 的 一 个 项 目 。 官 方 为 了 打击 黄牛 围 票 , 网 站 不 断 地 更 新 升级 ， 
各 类 抢 票 软件 也 不 断 地 修正 更 改 ， 两 者 周而复始 ， 印 证 了 一 句 话 “程序 员 都 是 在 互相 伤害 ”。 

这 种 抢 票 类 疏 虫 的 开发 思路 与 用 户 在 浏览 需 的 购 票 操作 一 致 ， 只 不 过 是 编写 代码 来 完成 购 累 
流程 ， 可 以 理解 为 通过 程序 来 模拟 用 户 在 浏览 右上 购买 和 车 螺 。 

在 本 项 目 中 ， 按 照 购 买 火车 票 的 流程 用户 登 录 一 查询 车 票 信 息 一 选择 班次 一 填写 乘 车 人 员 
信息 一 提交 并 生成 订单 ， 制 定 爬 虫 功 能 开发 顺序 ， 即 : 


CD 验证 码 验证 。 
(2) 用 户 登 录 与 验证 。 
(3) 查询 车 票 。 

(4) 预订 车 票 。 

(5) 提交 订单 。 

(6) 生成 订单 。 


19.2 ”验证 码 验 证 


在 12306 网 站 购买 火车 标的 时 候 ， 首 先 需要 用 刀 登 录 ， 除 了 需要 得 入 账号 、 密 码 之 外 ， 还 设 
有 图 片 验 证 但 , 验证 码 的 验证 方式 是 根据 图 片 中 的 问题 选择 正确 的 答案 ,， 当 验证 码 和 账号 信息 正确 
时 ， 才 能 登录 成 功 。 

用 爬虫 实现 登录 功能 ， 首 先 需 分 析 网 站 的 登录 事件 所 触发 的 请 求 信 息 。 在 Chrome 20 9i 2s PY 
|] 12306 的 用 户 登 录 界 面 Chttpsz//kyfw.12306.cn/otn/login/init) 。 该 登录 界面 除了 账号 、 密 码 输 入 
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框 之 外 , 还 有 一 个 图 片 验证 码 , 图 片 验证 码 是 由 一 个 问题 描述 和 8 组 图 片 组 成 的 。 打开 开发 者 工具 ， 
在 登录 界面 输入 账号 、 密 人 码 并 选择 错误 的 验证 人 码 答案 ， 最 后 单 击 登 录 按 钮 ,可 以 看 到 有 两 个 请 求 信 
息 ， 如 图 19-1 所 示 。 


| ) Hide data URLs All | BERI JS CSS Img Media Font Doc WS Manifest 


x | Headers Preview Response Cookies Timing 
图 captcha-check | Y General 
Request URL: https://kytfw.12306.cn/passport/captcha/captcha-check 
Request Method: POST 
Status Code: & 200 ok 
Remote Address: 157.255.68.113:443 
Referrer Policy: no-referrer-when-downgrade 

by Response Headers (12) 

* Request Headers (12) 

Y Form Data view source view URL encoded 
answer: 170,112,102,110,248,119,124,45 
login site: E 
rand: sjrand 


图 19-1] 验证 码 验 证 


从 图 19-1 可 以 看 到 ， 当 输入 正确 的 账号 、 密 码 并 选择 错误 的 验证 码 答案 登录 后 ， 会 触及 两 个 
POST 请 求 ， 其 中 第 一 个 请 求 链 接 是 https://kyfw.12306.cn/passport/captcha/captcha-check， 从 URL 
组 成 和 啊 应 内 容 分 析 , 该 请 求 信息 的 作用 是 验证 用 户 选 择 的 答案 与 验证 人 码 管 案 是 否 符 合 , 如 图 19-2 
所 示 。 


|* Headers | Preview | Response Cookies Timing 


| Y (result. message: "JUE EA RIA", result code: "5"} 
| result code: "5" 
result message: "duh pi ADU" 


图 19-2 ”验证 码 校 验 结果 


从 图 19-1 可 知 ， 验 证 码 校 验 请 求 有 三 个 参数 ， 分 别 是 answer、login site 和 rand。 早 从 一 次 请 
求 信息 是 无 法 找 出 请 求 参数 的 变化 规律 的 , 不 妨 重 复 多 次 上 述 操作 , 观察 请 求 参数 的 变化 来 判断 数 
据 规律 。 通 过 多 次 操作 《输入 正确 的 账号 、 密 码 ， 并 选择 错误 而 不 重复 的 验证 码 答案 ) ， 发 现 参数 
login site 和 rand 的 参数 值 是 固定 不 变 的 , 而 参数 answer 会 根据 每 次 选择 的 答案 的 不 同 而 不 断 地 变 
化 。 

为 了 进一步 找 出 参数 answer 的 变化 规律 ， 符 试 以 下 方法 : 


(1) 第 一 次 只 选择 第 一 组 图 片 ， 参 数 answer 的 值 为 40,40. 

(2) 第 二 次 只 选择 第 二 组 图 片 ， 参 数 answer 的 值 为 114,35. 

(3) 第 三 次 只 选择 第 三 组 图 片 ， 参 数 answer 的 值 为 192,39. 

(40 以 此 类 推 ， 第 四 、 第 五 、 第 六 、 第 七 和 第 八 组 图 片 分 别 对 应 257,36、42,115、119,107、 
185,124 和 272,117。 也 就 是 说 ， 每 组 图 片 对 应 一 组 数字 。 
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通过 多 次 试验 上 友 现 ， 同 一 组 图 片 ， 根 据 单 击 位 置 的 不 同 ， 参 数 answer 的 值 随 之 变化 ， 如 第 一 
组 图 片 ， 单 击 位 置 分 别 在 左上 方 和 左下 方 ， 其 参数 answer 的 值 有 上 所 不 同 。 根 据 这 样 的 变化 ， 每 组 
数字 应 该 代表 一 个 坐标 位 置 每 组 图 片 代表 一 定 的 区 域 范围 ， 只 要 坐标 位 置 在 图 片 的 区 域 范 围 内 ， 
这 组 数据 就 代表 这 张 图 片 。 这 种 验证 码 称 之 为 坐标 验证 码 , 这 种 坐标 系 的 验证 码 属于 图 片 验证 码 的 
一 种 类 型 , 对 于 这 种 验证 码 目 前 还 没有 很 好 的 解决 方案 ， 只 能 通过 人 为 输入 正确 的 坐标 位 置 来 完成 
合 分 析 ， 可 以 确定 验证 码 里 面 的 8 组 图 片 的 坐标 位 置 〈 每 组 图 片 的 坐标 位 置 不 是 唯一 的 ， 
只 Wi 图 片 的 区 域内 即 可 ) ， 验 证 码 校 验 代 码 如 下 
import requests 


d ^ERÉÓ: 40,40,114,35,192,39,257,36,42,115,119,107,185,124,272,117 
codo list- f 


'1': '40,40,', 
Fan 5q4q4 35. 
"3'- *199 39 *. 
"e rong qe * 
iges «wo (193 *. 
"gis "19 TOY. '. 
"pi 1185 194 * 
acc rp Li 
) 
# 创建 会 话 
session = requests.session() 
# 请 求 头 
sos gs 


'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 ' 
'"(KHTML, like Gecko) Chrome/63.0.3218.0 Safari/537.36', 
er 
"hEtps:y//kytw.12306.cn/otn/logrn/inrct"] 
# 验证 码 图 片 的 URL 
url ~ 'https://kyfw.12306.cn/passport/captcha/captcha-image? 
login site-E&module-login&rand-sjrand' 
# 忽略 证 书 验 证 
r= session.get(url, headers-headers, verify-False) 
E 下 载 验证 码 图 卢 
F = open('code-png-, wh") 
[-writerlrr.content)j 
i.closet) 
# 输入 验证 码 图 片 位 置 ， 每 组 图 请 用 瑞 文 腺 号 陋 开 
code 三 EN a n3 
get code m: 
for 1 in code.split{','"}): 
# 根据 输入 每 组 图 片 的 组 号 获取 对 应 的 坐标 位 置 
get code += code 1l11ist[1] 


# 验证 码 校 验 


data = I 
"answer: get code, 
"logia sile: "b". 
"rand': "'sjrand*' 

} 


url = 'https://kyfw.12306.cn/passport/captcha/captcha-check' 
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r — session.post(url, data-data) 

print (r.text) 

整 段 代码 实现 了 两 次 请 求 ， 第 一 次 请 求 是 下 载 验 证 码 图 片 ， 第 二 次 请 求 是 对 验证 码 进行 校 验 。 
代码 细节 如 下 。 


code list: 使 用 字典 数据 格式 ， 主 要 用 于 验证 码 识 别 ， 用 户 可 直接 输入 每 组 图 片 的 组 号 获 
取 对 应 的 坐标 位 置 。 

session — — 创建 一 个 持久 化 会 话 对 人 错 ， 确 保 每 一 次 请 求 在 同一 个 会 话 中 ， 
verify=False: 忽略 证 书 验证 。 如 果 没 有 安装 12306 网 站 的 根 证 书 ， 羽 取 过 程 中 会 提示 连接 
不 安全 而 导致 无 法 访问 ， miiia iii, 

验证 码 识 别 : 根据 验证 码 的 问题 找 出 图 片 所 在 组 号 的 位 置 即 可 。 图 片 位 置 顺序 是 从 上 到 下 
再 从 左 到 右 ， 组 号 从 1 到 8 依次 排 折 。 如 果 有 多 个 组 号 ， 组 号 之 间 就 用 英文 的 过 号 隔 开 .。 


全 证 码 验 证 ， 将 输入 的 字符 串 以 逗号 分 割 后 ， 根 据 图 片 位 置 找到 对 应 的 图 片 坐标 ， 最 后 将 坐 
标 拼 接 起 来 就 得 到 参数 answer. 
运行 上 述 代 码 ， 结 果 如 图 19-3 所 示 。 


请 点 击 下 图 中 所 有 的 FS pP npo dpa le iat exe F:/12306/test. py 


InsecureRequestWarning) 


i A7 


人 


l'result message : 验证 人 码 校 验 成 功 ，Tresult code": 4" 


| dp | 
m 
a 24 
EF 全 
A / g | [| Process finished with exit code 0 


图 19-3 ”验证 结果 


19.3 ”用 户 登 录 与 验证 


完成 验证 人 码 验证 后 ， 下 一 步 是 实现 用 户 登 录 功 能 。 从 图 19-1 可 知 ， 单 击 登 录 按钮 会 触发 两 个 
POST 请 求 ， 其 中 第 二 个 是 用 户 登 录 请 求 ， 对 该 请 求 进 行 分 析 ， 如 图 19-4 Br. 
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Hide data URLs All GGI JS CSS Img Media Font Doc | 


X | Headers | Preview Response Cookies Timing 
|. | captcha-check Y General 
| | login Request URL: https://kyfw.12306.cn/passport/web/login 
Request Method: POST 
Status Code: 人 200 OK 
Remote Address: 157.255.68.113:443 
Referrer Policy: no-referrer-when-downgrade 
> Response Headers (14) 
* Request Headers (12) 
Y Form Data view source view URL encoded 


username: 13435423143 


password: NN 


appid: otn 


图 19-4 ”登录 请 求 


登录 请 求 的 参数 有 username, password 和 appid， 而 且 username 和 password 没有 经 过 加 密 处 
H, S% appid 是 固定 不 变 的 。 那 么 ， 用 户 登 录 的 代码 如 下 : 


url -'https://kyfw.12306.cn/passport/web/login' 
data = ( 
'username': '1343542314353', 
'password': 'XXXXXX', 
"appid"': "otn" 
} 
r — session.post(url, data-data) 
print (r.text) 


由 于 用 户 登 录 的 代码 无 法 单独 运行 ， 因 此 我 们 将 验证 码 验 证 和 用 户 代 码 整 合 在 一 起 ， 只 要 将 
用 户 登 录 的 代码 添加 到 验证 码 的 代码 下 面 即 可 ， 运 行 结 果 如 图 19-5 所 示 。 


F:\Pvython\lib\site-packages\urllib3\connectionpool. py:852: InsecureRequestWarning: Unverified HTTPS request 
InsecureRequestWarning) 

请 输入 验证 个 : 2.6 

F:\FPythonì\libħsite-packages\urllib3\connectionpool. py:852: InsecureRequestWarning: Unverified HTTPS request 
InsecureReguestWarning) 


l'result message : Ue uERATZUEXIJ , result code": ^4"] 


F:XMPythonM ibMsite-packagesYurllib3XMconnectionpool. py:852: InsecureRequestWarning: Unverified HTTPS request 


InsecureRequestWarning) 


l'result message : X3KHXJ] , result code" :0, “uamtk : ünjyEiClOmhGTRb5W3vPyvOE3n45XPhAk-5Msuw4nEnwsdlll0 


图 19-5 用 户 登 录 信息 


完成 用 户 登 录 后 ， 接 着 回 到 登录 界面 ， 当 输入 正确 的 账号 、 密 码 和 验证 码 之 后 ， 单 击 登 录 按 
钮 , 触发 两 个 请 求 之 后 , 发 现 网 页 会 自动 跳 转 , 在 网 页 跳 转 时 , 在 开发 者 工具 捕捉 到 两 个 新 的 POST 
请 求 ， 但 这 两 个 请 求 只 在 一 瞬间 出 现 ， 等 网 页 跳 转 完成 之 后 ， 请 求 信息 就 会 被 清理 掉 。 

这 是 因为 HTTP 的 302 网 页 跳 转 之 后 ，Chrome 浏览 器 将 之 前 捕捉 到 的 请 求 清空 ， 然 后 重新 捕 
提 新 页 面 的 请 求 ， 过 到 这 种 情况 ， 只 能 在 网 页 跳 转 的 期 间 内 单 击 开 发 者 工具 ， 然 后 按 Ctrl+E 停止 
Network 对 请 求 的 捕捉 ， 这 样 就 能 保留 之 前 的 请 求 信 息 。 除 此 之 外 ， 读 者 还 可 以 使 用 Fiddler 对 网 
站 抓 包 。 
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回 到 本 项 目 中 ， 在 网 页 跳 转 之 前 ，Chrome 浏览 器 捕捉 的 请 求 信 息 如 图 19-6 和 图 19-7 所 示 。 


| Hide data URLs All EGGJ JS CSS Img Media Font Doc WS 


-- 


X | Headers | Preview Response Cookies Timing 


ET | v General 
uamauthclient Request URL: https: //kyfw.12306.cn/passport/web/auth/uamtk 
| Request Method: POST 
Status Code: && 200 OK 
Remote Address: 157.255.68.113:443 
Referrer Policy: no-referrer-when-downgrade 


> Response Headers (12) 
> Request Headers (12) 
Y Form Data view source view URL encoded 


appid: otn 


图 19-6 用 户 登录 验证 一 


Filte! _| O Hide data URLs All | ZG) Js CSS Img Media Font Doc WS 


Name | Headers | Preview Response Cookies Timing 


| | uamtk Y General 
图 uamauthclient | Request URL: https://kyfw.12306.cn/otn/uamauthclient 
Request Method: POST 
Status Code: && 200 OK 
Remote Address: 157.255.68.113:443 
Referrer Policy: no-referrer-when-downgrade 


> Response Headers (9) 
> Request Headers (12) 


Y Form Data view source view URL encoded 
tk: uniSapgkKczuzDxeeq eMJRV9Zkvvysz U4niCYN9sImk1110 


图 19-7 用 户 登录 验证 二 


从 图 19-6 和 图 19-7 可 知 , 网 页 跳 转 时 , 发 生 了 两 次 POST 请 求 , 而 且 两 者 只 有 一 个 请 求 参 数 ， 
图 19-6 的 请 求 参数 是 固定 值 ， 而 图 19-7 的 请 求 参 数 是 变化 值 。 
现在 无 法 确定 图 19-7 请 求 参数 的 由 来 。 一 般 来 说 ， 请 求 参数 主要 的 来 源 如 下 : 


(1) Doc 标签 的 HTML 内 容 ， 可 以 复制 参数 值 的 内 容 ， 然 后 在 HTML 中 快速 得 找 参数 是 合 
存在 。 

(2) XHR 标签 的 请 求 信 息 ， 参 数 可 能 由 其 他 的 请 求 信息 生成 。 

(3) JS 标签 的 请 求 信 息 ， 需 要 对 JavaScript 代码 进行 解 谈 ， 参 数 有 可 能 由 JavaScript 生成 。 

(A) 特殊 数据 ， 如 随机 数 和 时 间 戳 。 随 机 数 大 多 数 都 是 以 小 数 为 主 的 ， 大 多 数 随机 数 可 以 视 
为 固定 不 变 的 参数 ， 时 间 惟 通常 以 150XXXXX 开头 ， 长 度 一 般 为 9 一 16 位 不 等 。 

根据 上 述 查 找 方法 结合 实际 分 析 ， 当 前 只 有 两 个 POST 请 求 ， 第 二 个 请 求 信息 的 请 求 参 数 很 
可 能 来 自 于 第 一 个 请 求 信 息 的 响应 内 容 。 

在 上 述 已 完成 的 代码 中 添加 以 下 代码 ， 实 现 图 19-6 的 请 求 : 


url = 'https://kyfw.12306.cn/passport/web/auth/uamtk' 
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data = ( 
"apprd'- "otn" 
) 
r — session.post(url, data-data) 


print (r.text) 
运行 代码 ， 结 果 如 图 19-8 所 示 。 


InsecureRequestWarning) 


E: MPython lib aite-packages yurllib3*Xconnectionpool.py:852: InsecureRequestVarning: Unverified HTTPS request is being made. 


InsecureRequestWarning) 
l'result message : 验证 码 校 验 成 功 ”,， "result code : 4^7] 


F:MPythonMibMsite-packagesNurllib3'connectionpool.py:852: InsecureRequestWarning: Unverified HTTPS request is being made. 


InsecureRequestWarning) 


l'result message : 登录 成 功 ”, result code" :0, uamtk : 9SHmBE6TX imlakKVaUD TwqxT3WLyRDR-rO5nMwPiPwlplll0^] 


F:MPythonMlibMsite-packagesNurllib3NXconnection .py:955Z: InsecureRequestVarning: Unverified HTTPS request is being made. 


a ae 


人 Tesult message" 验证 通过 , ” result code“ er apptk' :null, "newapptk :" tg aFvSVVZAtN8srMpIXMMAgHIRb-BGL-Euop4hHVcket1110^] 
` InsecureRequestWarning: Unverified HTTPS request is being made. 


图 19-8 用户 登录 验证 结果 一 


从 最 后 的 输出 结 末 分 析 ，newapp 隶 的 数据 格式 和 图 19-7 的 请 求 参数 比较 从 合 。 和 里 试 使 用 


newapptk 的 数据 作为 图 19-7 的 请 求 参 数 ， 在 上 述 代码 中 添加 以 下 代码 : 


à newapptk 是 图 15-6 请 求 之 后 的 啊 应 结果 
newapptk = r.json()['newapptk'] 
url = "'https://kytw.12306.cn/otn/uamauthc! Tent ' 
data = ( 
"tk": newapptk 
} 


r — session.post(url, data-data) 
print (r.text) 


运行 结果 如 图 19-9 所 示 。 
m d, 5 


InsecureRequestWarning! 


l'result message": 验证 卫校 验 成 功 ， "result code :” 


InsecureRequestWarning) 
{ result message” 登录 成 功 , result code :0, uamtk”: 9SHmBE6TX imlaKVaUD TwaqxT3WLyRDR-rOS5nMwPiPwlpl110"} 


á. InsecureRegquestWarnines: Unverified HTTPS request is 


being made. i; 


4. InsecureRequestWarning: Unverified HTTPS request is being made. 


F:VPythonMibNXsite-packagesNurllib3Xconnectionpool. py:852: InsecureRequestWarning: Unverified HTTPS request is being made. 


InsecureRequestWarning) 


l'result message" : 验证 通过 , result code" :0, "apptk :null, "newapptk :" tg aFvSVVZAtNSsrMpIXMMAgHIRb-BGL-Euop4hHVcket1110^) 


F:VMPythonMlibMXsite-packagesWNurllib3Xconnectionpool.py:852: InsecureRequestWarning: Unverified HTTPS request is being made. Adding 


InsecureRequestWarning) 


l'apptk" :"tg aFvSVVZAtNBsrMpIXMM4gHIRb-BGL-Euop4hHVcketlllO0^, "result code" :ü,^result message : “验证 通过 "username”;“ 黄 永 祥 ”} 


图 19-9 用户 登 录 验 证 结果 二 


根据 图 19-9 的 运行 结果 得 知 ， 第 二 次 POST 的 请 求 参数 ( 见 图 19-7) 来 自 于 第 一 次 POST 请 
求 ( 见 图 19-6) 的 响应 内 容 ， 也 就 说 这 两 个 请 求 是 紧密 联系 的 ， 共 同 完 成 用 户 登 录 验 证 功能 。 


用 户 登 录 网 站 由 三 部 分 功能 组 成 : 验 证 码 验 证 一 用 户 登 学 录 一 用 户 验 证 。 对 这 二 


部 分 功能 进行 
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import requests 

def login(username, password): 
| Fires.: 40,40,114,35,192, 38, 257, 36, 42, 115, 119, 107, 185, 124, 272, 117 
Code TSE — T 


jc ug an t. 
t2 Fida 35 0. 
sare 'qgo 39. v. 
idie 1257, 36. *. 
'5': !'42,115,', 
tpt: 1119,10; 
"p 95 194 * 
"ut m ex. T7IY 
} 
# 请 求 头 
headers = [('User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) 
AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/63.0.3218.0 Safarrz/537.36', 
"Hererer'-'https://kytw.12306.cn/otn/Iogqin/ rnit] 
url — 'https://kyfw.12306.cn/passport/captcha/captcha-image? 


login site-E&module-login&rand-sjrand' 

# 忽略 证 书 验证 
r = session.get(url, headers-headers, verify-False) 
# 下 载 验 证 码 图 片 
t = open ('"code.png', 'wb') 
f.write(r.content) 
:Closel) 
# 输入 验证 码 图 片 位 置 ， 多 个 验证 码 用 匡 文 逗号 分 开 
code-input ("请 输入 验证 码 : ") 
ger code = i 
for 1 in code.split{(','"): 

# 根据 输入 每 组 图 片 的 组 号 获取 对 应 的 坐标 位 置 

get code += code 1l11ist[1] 


E SATIRE Vb y 


data-(í 
“nswer eb code, 
"Togin site':'E', 
"rand'z'sjrand"' 
} 
url = 'https://kyfw.12306.cn/passport/captcha/captcha-check' 
r — session.post(url, data-data) 


print (r.text) 
if ' 验 证 码 校 验 失 败 ' not in str(r.text): 


EOHDOXE 
url = 'https://kyfw.12306.cn/passport/web/login' 
data = ( 

'username': username, 


'password': password, 
'appid': "otn' 
} 
r — session.post(url, data-data) 
print (r.text) 
if ' 密 码 输入 错误 ' not in str(r.text): 
# 登录 验证 第 一 次 请 求 
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url = 'https://kyfw.12306.cn/passport/web/auth/uamtk' 
data = ( 
"appad*- "otn" 
} 
r — session.post(url, data-data) 
# 登录 验证 第 二 次 请 求 
newapptk = r.json()['newapptk'] 
url = 'https://kyfw.12306.cn/otn/uamauthclient' 
data = ( 
'"Lk': newapptk 
} 
r-session.post(url, data-data) 
pranb(rE-text) 
return True 
=o oai 
return False 
return False 


iE TI 
# 创建 持久 化 会 话 对 象 
session = requests.session() 
username = 'XXXXXxx' 
password = 'xxxxxxx' 
login info - login(username, password) 


print (session) 


19.4 查询 车 次 


但 询 车 次 信息 首先 要 输入 出 发 地 、 有 目的 地 和 出 上 友 日 期 ， 完 成 信息 输入 后 ， 单 击 “ 得 询 ” 按 钮 ， 
网 站 根据 输入 的 信息 返回 相应 的 车 次 信息 。 

从 一 个 正常 的 车 次 查询 流程 中 发 现 ， 实 际 上 网 站 与 用 户 的 交互 是 在 用 户 单 击 “查询 ”按钮 时 
发 生 的 。 在 开发 者 工具 捕捉 到 的 请 求 如 图 19-10 和 图 19-11 所 示 。 


Hide data URLs All | RJ JS CSS Img Media Font Doc WS Ma 


* |Headers| Preview Response Cookies Timing 


T ICICI ERI 


E logrleftTicketDTOtrain_date=... 


Request URL: https: //kyfw.12386.cn/otn/leftTicket/log? 
query?leftTicketDTO.train dat... codes-ADULT 
Request Method: GET 
Status Code: && 200 OK 
Remote Address: 112.90.135.238:443 
Referrer Policy: no-referrer-when-downgrade 
* Response Headers (8) 
* Request Headers (11) 
¥ Query String Parameters view source 
leftTicketDTO.train date: 2017-18-21 
leftTicketDTO.from station: azQ 
leftTicketDTO.to station: WHN 
2 / 16 requests | 7.0 KB / 8.2 KB tr... purpose codes: ADULT 


图 19-10 "EZ fri ck Ws Nz A ZE— 
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| Filter | LJ Hide data URLs All XHR JS CSS Img Media Font Doc W5 Ma 


| i 
ru t AN 


* Headers | Preview | Response Cookies Timing 


| ess Ea w [(validateMessagesshowId: " validatorMessage", status: tí 
query?leftTicketDTO.train dat... | nttpstatus: 200 
o messages: [] 
status: true 
validateMessages: {} 
validateMessagesSshowld: " validatorMessage" 


2 f 16 requests | 7.9 KB / 8.2 KB tr... 


图 19-10 (C4) 


|Filter | LJ Hide data URLs All XHR JS CSS Img Media Font Doc WS Mani 


Name X | Headers | Preview Response Cookies Timing 


|_ | log?leftTicketDTO.train date-... 


+ Bell RI 


| Request URL: https: //kytw.12386.cn/otn/leftTicket/query? 
E querny?leftTidketDTO.train_dat... e codes-ADULT 


Request Method: GET 

Status Code: & 286 OK 

Remote Address: 112.98.135.238:443 
Referrer Policy: no-referrer-when-downgrade 


* Response Headers (11) 
> Request Headers (11) 
Y Query String Parameters view source view URL encoded 
leftTicketDTO.train date: 2817-18-21 
leftTicketDTO.from station: G7Q 
leftTicketDTO.to station: WHN 
2 / 16 requests | 7.9 KB / 82 KB tr... purpose codes: ADULT 


* Headers | Preview | Response Cookies Timing 


10sr8g33D| fiii] |6c0000G31205 |G312| IzQ0 | ICu| IzQ| wHN |86:28| 16:54|04:26]| Y| 3 
"irvmvksg3D| fiii] |6ceeoc174402 |G1744 | IZO| NKKH|IZO | uHN | 06:34 |11:01]|04 :27] Y | 
BALAyFOqg*3D| fiii] | 6ceeeec2766eD |G276 | rzo | QDK | IZQ| WHN |86:47|11:66 |84:19 | 
pcss53D | fiif |6ceaaG1316065|6G1316 | 170| 1cWw| 170 |uHN | 86:53| 11:12 |8B4:19| v| bzn 
2P5LRPNTAfZgwBbuOoQX3D33D | fiti] | 6ce600c118200 |G110e2 | 1z0| uHN | IZQ | uHN | e7 : ee | 
[0%3D | Hii] |6ceeeeca32ep|G832 | IZQ| EAv | IZQ | uHN| 67 : 11 [11:23 |e4:12| v | AAaF fV 
IHX%2BH8w%2BAwueTgQ%3D%3D | 预订 | 6ceooc174800 |G1748 | IZQ| BMH | IZQ | WHN | 67 : 22 | 
;2Fu8CGBA4aL REXRNUCqw263D4:3D| fü] | e36eec1ee2eA |G1002 | I0Q | WHN | IZQ | WHN | e7 : 
iqLy262F bopAkMKrtbXxw/53D263D | fiti] | eceeeeecoa4eB [69a | IZQ | ZAF | IZQ | WHN | e7 :40| 1: 
3D | fii] |o1eeeeec 72er | c72| Nzo |BXP | IZZQ| wHN | 67:46 |12:11]|04:25|Y | aMoRAa32d 
63D | fiii] | 6c0000G55003 [6550| 170 | ZAF | IZQ| WHN [08:05 |12:84 | 03:59 |Y| cpLDnU9q 
Fycg#3D| ji |6i1608G131206 |61312| I0Q | CU | EZQ| WHN | 68: 18| 12:19 | 64: 9 | Y | BHg 
;2F%BAHOqAgVohsx6wMowMXA%3D%3D| jii] | e309ek11600G |K1160 | azQ | YAK | GzQ | wCH | 


or LiuniatcaonldTmuit lcanmnmanmcaonmnzslzaenmlTnnlacwlT7nluimilmnaosazczlaa:«aolna:sao2nlwla 


图 19-11 车 票 查询 请 求 及 响应 内 容 二 


对 请 求 信 息 分 析 可 知 ， 用 户 在 单 击 “ 得 询 ” 按 钮 后 会 及 送 两 个 GET 请 求 ， 两 个 GET 请 求 的 参 
数 是 一 致 的 。 再 得 看 两 者 的 返回 数据 ， 图 19-10 的 返回 数据 并 没有 太 大 用 处 ， 图 19-11 的 返回 数据 
内 容 较 多 ， 而 且 与 网 页 显示 的 车 次 信息 〈 见 图 19-12) 对 比 发 现 ， 两 者 的 数据 是 可 以 相互 匹配 的 。 
也 就 是 说 ， 网 页 上 的 车 次 信息 由 图 19-11 的 请 求 信息 生成 并 按照 菏 种 方式 洽 染 到 网 页 上 。 
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图 19-12 查询 车 次 信息 


在 代码 中 实现 车 次 查询 , 首先 要 找到 请 求 参数 的 数据 来 源 。 从 图 19-10 和 图 19-11 的 参数 可 知 ， 
出 发 地 和 目的 地 都 是 英文 字母 ， 前 两 个 字母 是 由 城市 名 的 拼音 自 字 和 母 组 成 的 ， 最 后 一 个 字母 无 法 
确认 。 


图 
因此 在 编写 代码 的 时 候 ， 需 要 设置 两 个 不 同 的 URL 地 址 并 分 别 对 此 发 送 GET 请 求 ， 通 
过 响应 内 容 来 确定 正确 的 请 求 地 址 。 


根据 19.3 节 的 请 求 参 数 查找 方法 ， 分 别 在 Doc、XHR、JS 标签 查找 和 分 析 各 个 请 求 信 息 。 我 
们 在 JS 标签 某 个 请 求 的 啊 应 内 容 中 找到 城市 的 字母 编号 ， 如 图 19-13 所 示 。 


Hide data URLs All | XHR [S CSS Img Media Font Doc WS Manifest Other 
|X Headers | Preview | Response Timing 

..| data jcokies js = I| var station names -'gbjb|J:srdb|vaP|beijingbei|bjb]|egbjd 
| queryLeftTicket js.js?scriptVersion- 1.9043 
| jquery.bgiframe.mi [s 
三 | new,js 
E station name.is?station version=1.9028 
-| favorite name,js 
_| queryLeftTicket end UAM js.js?scriptVersion 


-| qtmxofy 


| data.jcalendar.js 


-| captcha js.js 
1 wr 
ewent Is 


14 / 126 requests | 5.8 KB / 102 KB transferred |... 


图 19-13 ”各 个 城市 信息 
观察 其 数据 结构 ， 友 现 每 个 城市 之 间 以 “@” 为 一 个 开始 点 ， 抽 取 部 分 内 容 进 行 分 析 : 


@bjb| 北 京北 |VAP|beijingbei|bjbl0@bjd| 北 京东 |BOP|beijingdong|bjd|1@bji | 北京 

1BJP|beijing|bj|128@bjn | 北京 南 |VNP|beijingnan|bjn | 

在 内 容 中 可 以 找到 城市 名 称 和 城市 英文 编号 ， 分 别 是 “北京 北 一 VAP”“ 北 京东 一 BOP” 和 
“北京 一 B 卫 ”。 每 个 数据 之 间 以 “|” 阳 开 ， 而 我 们 所 需 的 数据 分 别 是 全 有 “@ ”的 数据 后 的 第 一 
位 和 第 二 位 。 根 据 这 个 规律 ， 实 现代 人 码 如 下 : 


import requests 
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def city name(): 
url = 'https://kyfw.12306.cn/otn/resources/]j]s/framework/ 
station name.js?station version-1.9031' 
CiLy code — session get (art) 
city code list = city code.text.splrt("|") 
city dict = {} 
FOr k, 1 n ensmerste[city code lisli: 
pr "Mt fn I: 

# 城市 名 作为 字典 的 键 ， 城 市 编号 作为 字典 的 值 

city dict[city code list[k + 1]] = city code list[k + 2] 
return city dict 


现在 得 到 图 19-11 的 请 求 参 数 ， 接 下 来 对 图 19-11 返回 的 车 次 信息 进行 清洗 ， 获 取 我 们 所 需 的 


数据 。 在 实际 中 ， 每 班车 次 存在 两 种 情况 ， 分 别 是 有 余 景 和 无 昧 。 对 这 两 种 情况 的 数据 进行 分 析 和 
对 比 : 


"S2BJlIGyMIoelW3AmIOyCCOho$2FthJG$2FA4PfGMUtixEKS2Byrl9JuOTLHBVrBJfdA4O0RUtRiP$2 
BbVdnpdTiob$0AjYQAlVkkqs16P5EsPeuK$2Fldya6KLswYyoS$2BBwsLXQkr412D2tDAndy]jyh 
OOhMZEKn$2BNFAZaiBMRQi$SOATRBqKt8pYl1NmBeu9lgEQdsdvMJ23SGTzzptyCwYtmEut4Ffog 
6LPkywCZTlEfeFOO4Hp$2BUS2BF2NIk$0AeeFN8£Y5$3D| fiti |6c0000G631205|G312| IZQ|ICW 
|IZQ|WHN|06:28[|10:54/[04:26|Y|$2FCaZQBZdKPD70TjFodC1$2F7y2N8jqdmZRAJHOrECZr 
eKGar12]|20171023|3|Q2/|01/|09|null|O||I I LL HELL LT 1 48181100M090|0M9" 


上 述 数据 是 图 19-12 G312 车 次 的 列车 信息 ， 每 个 数据 由 “|” 连 接 组 成 一 条 完整 的 车 次 信息 。 


有 一 部 分 数据 与 图 19-12 对 得 上 , 其 余 的 数据 暂时 无 法 确定 , 可 能 会 在 后 续 的 流程 中 起 到 重要 作用 。 
我 们 再 抽取 无 票 的 车 次 信息 ， 如 图 19-14 所 示 。 


m IH 
mm ux 
£93 广州 
图 ua 
E Hi 


图 uix 
pi) H 
图 uH 
图 广州 南 
An iM 


图 19-14 无 票 的 车 次 信息 


" | 预订 |6c00000G6605|G66|IZO|IBXP|IZO|IWHN|10:00|13:38|103:38|N|8zmC3adDzKJi 
1D3WPp2sMDr83uz91FxKN$2FYEON11GC$2FD7AaME|20171023|3|9Q9/|01/03/|0]0]| | IL LII I 
| 1 无 1 无 | 无 1100M090 |OM9" 


可 以 看 到 ，G66 车 次 已 经 满座 无 如， 分 析 其 数据 内 容 友 现 “ 预 订 ”前面 的 数据 为 宇 ， 其 他 信 


已 和 有 余 票 的 车 次 信息 大 臻 相同。 说明“ 预订 ”前 面 的 数据 可 以 区 分 车 次 是 否 还 有 余 票 。 


无 论 是 无 票 还 是 有 余 票 ， 都 是 以 “|” 将 各 个 信息 连接 起 来 组 成 一 条 车 次 信息 ， 按 照 这 个 规律 ， 


车 次 信息 清洗 代码 如 下 : 


train info info = r.]5on(t) 
Erain into diek — [DJ 
tor 1 in Lrain info inilol'data']|'resulL']: 
train info status = 1.split("|") 
if train Inigo statusigl] 1 Tr: 
train inilo dugct|'secrersrr'] = train inilo statusidil 


train info dicli train no ll train :ntfo status[?2] 
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train info dirct['stationTrarncodeoe']| = train Iinfo status[3] 
train info dicbl'fromStationTeslescode']| = train info statusi 4] 
train into dicb|'tostatronTelecode'] — train info statusi] 
train info drct|'IefbtTrbkect'] - train info startuspr?] 

train into Hict|'troszn locatron"] — irain info statguspUs] 


train info info 是 图 19-11 返回 的 响应 内 容 , train. info info['data']['result] 是 直接 定位 车 次 信息 ， 
然后 对 车 次 信息 以 “|” 分 割 ， 得 到 新 的 列表 ， 通 过 判断 “预订 ”前 面 的 数据 是 否 为 宪 ， 排 除 无 票 
的 车 次 信息 。 

综合 上 述 分 析 ， 将 获取 城市 编号 和 获取 车 次 信息 的 代 人 码 整 合 优 化 ， 得 到 如 下 代码 : 


import requests 
# 获取 城市 编号 
def city name (): 
uri — 'https-//EkyrFw.12306.cny/obLn/resourcesy ]5/ 
framework/station name.js?station version-1.9031' 
city code = sessrion.get (url) 
city code list = city code.text.split("™|") 
city dict- f} 
for k, 1 in enumerate (city code list): 
if "E" in i: 
# 城市 名 作为 字典 的 键 ， 城 市 英文 编号 作为 字典 的 值 
city dict[city code list[k + 1]] = city code list[k + 2] 
return (city dict) 
# 获取 车 次 信息 
def train info(train date, query from station name, query to station name): 


# 调用 函数 city name 获取 城市 编号 


city dict = city name () 
from station = city dict[query from station name] 
to station = city dict[query to station name] 
# 获取 车 次 信息 
while 1: 
# 第 一 次 请 求 
url = 'https://kyfw.12306.cn/otn/leftTicket/log? 


leftTicketDTO.train date-$s&leftTicketDTO.from stations 
$s&leftTicketDTO.to station-$s&purpose codes-ADULT' 


a 


S (Eran date, from sratrron, to starron) 


r = session.get (url) 
# 第 二 次 请 求 
# 请 求 地 址 的 query 可 能 变 为 queryA， 可 通过 try..except 控制 
Ery: 
url = 'https://kyfw.12306.cn/otn/leftTicket/query? 


leftTicketDTO.train date=%s&leftTicketDTO.from station- 
$s&leftTicketDTO.to station-$s&purpose codes-ADULT' 


a 


$& (train date, from station, to station) 


r — session.get (url) 
best = r. json(^I'data"|!I'ceesutktr"*] 
errepi: 
url = 'https://kyfw.12306.cn/otn/leftTicket/queryA? 


leftTicketDTO.train date-$s&leftTicketDTO.from station- 
$s&leftTicketDTO.to station-$s&purpose codes-ADULT' 
$ (train date, from station, to station) 
r — session.get (url) 
time.sleep(2) 
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if "非法 请 求 ' not in str(r.text) and '"result":[]' not in str(r.text): 


train info info = r.]sont) 

train inio dizcb — tj 

FOE L 3n Erain ialo rnfo['data'][*'resutt'T: 
train info status = r.splrt['|"') 


If train info statusldl !— *'*- 
train into dict[i'secrerstr'] — train anto statusitl 
train info dretl train no'] © train inio otabtusl2l 
train info drctl stationTramnCodel| = train inio statusl.;] 
train into dicti'tromstatronrerecode'] = 


train info Statusi 
4] 


train into dictl]'tostabtronTeiecode'] -train Info Statusi] 
train info dicr["'"liesrtTicket'] — train info statusl lie 
train info dicti train location']| = train info statusi15] 
return train into dick 


1E name oun 
session = requests.session() 
username = '13435423143' 
password = 'XXXXXXXX' 
login info = login (username, password) 


# 判断 是 否 登 录 成 功 
if login info: 
train date = 'YYYY MM bDp' 
query from station name = 'J JH" 
query Eo stallion name — ' 武汉 ' 
train info dict = train info(train date,query from 
station name,query to station name) 


FR At train info0 定 义 了 三 个 参数 : 


(1) train date 为 出 发 时 间 ， 日 期 格式 为 YYYY-MM-dd。 
(2) query from station name 为 出 发 地， 以 城市 中 文 名 作为 函 数 参 数 ， 如 “广州 ”。 
(3) query to station name 为 目的 地 ， 以 城市 中 文 名 作为 函数 参数 ， 如 “武汉 ”。 

E ZEE SEIT ARE BONS T: 


(1) 调用 函数 city name0 获 取 城 市 编号 ， 将 出 发 地 和 目的 地 的 中 文 转换 成 英文 编号 。 

(2) 使 用 while 循环 获取 车 次 信息 ， 目 的 是 保证 车 次 信息 获取 成 功 ， 因 为 在 浏 斋 右上 每 次 得 
询 车 票 不 一 定 会 返回 车 次 信息 ,循环 的 作用 相当 于 用 户 不 停 地 单 击 “ 人 查询 ”按钮 。 每 次 循环 设置 延 
时 2 秒 ， 这 个 等 竺 时 间 是 为 了 防止 程序 访问 太 过 频 老 而 被 网 站 认为 是 机 器 人 。 

(3) 判断 第 二 次 请 求 所 返回 的 啊 应 内 容 是 不 是 车 次 信息 ， 奢 是 ， 则 获取 第 一 条 有 余 囚 的 车 次 
信息 并 返回 ， 反 之 一 直 循 坏 发 送 请 求 ， 直 到 获取 为 止 。 


运行 上 述 代 码 ， 结 果 如 图 19-15 所 示 。 


第 19 音 实战 : 123061 62m | 225 


HAARE: 3 


: InsecureRequestWarning: Unverified HTTPS request is being made. Adding certifi 


InsecureRequestWarning/ 
result -message : rasara 


22: InsecureRequestWarning: Unverified HTIFS request is being made. 
InsecureReqguestWarning| 

l'result message “和 登录 成 功 , result code :0, "uamtk" : " K3DHvIKblTwmXOn291M jiulMQISdZrrhonvwsw52kPI921110"] 

E: 3Pvthonlib*site-packa zeziur1 Tibi connection ool.py:852: InsecureRequestWarning: Unverified HTTPS request is being made. Adding certific 


| 2: InsecureReguestWarning: Unverified HTTPS request is being made. Adding certific 
InsecureRequestWarning) 
| [cdi "DOhKe  —rTlO0YcuLS8müOt4VzySoRAmji dor ii. erm , result eode":0, "result message"-"ErüpERId, username”: "H kH) 


22: InsecureRequestWarning: Unverified HTIPS request is being made. Adding certifici 


32: InsecureRequestWarning: Unverified HTIPS request is being made. Adding certific 
IngzecureRequestWarning) 
ÜstationTrainCode : 'Z122', 'leftTicket': ' vLPdZKMYTFOZhyDbhCgGZQaECBltOUZpxNoTsfOvUoAgudNZFvHQFZCCFHwOgS3D , "train no : '630000212208', 


图 19-15 ”车票 查询 结果 


19.5 预订 车 


完成 车 次 查询 ， 接 下 来 实现 车 票 预订 功能 。 由 于 在 19.4 P, RÆ train info0O 只 返回 第 一 条 
有 余 票 的 车 次 信息 ， 以 图 19-12 为 例 ， 如 果 车 次 G312 有 余 票 ， 就 直接 返回 该 车 次 信息 ， 如 果 满 座 
无 票 ， 就 取 下 一 班车 次 信息 再 判断 是 否 有 余 标 ， 直 到 取得 有 余 票 的 车 次 为 止 。 

我 们 对 图 19-12 的 G312 车 次 进行 车 票 预 订 ， 单 击 “ 预 订 ” 按 钮 进行 分 析 ， 发 现 单 击 按钮 会 触 
发 一 个 302 跳 转 ， 在 跳 转 前 ， 截 取 到 两 个 POST 请 求 ， 如 图 19-16 和 图 19-17 所 示 。 


Headers | Preview Response Cookies Timing 


国 checkUser Y General 


submit? rderRequest | Request URL: https: //kyfw.12386.cn/otn/login/checkUser 
| Request Method: POST 
Status Code: && 286 OK 
Remote Address: 112.98.135.238:443 
Referrer Policy: no-referrer-when-downgrade 


» Response Headers (8) 
* Request Headers (14) 
" Form Data view source view URL encoded 


son att: 


图 19-16 车 票 预订 请 求 一 


Name * Headers | Preview Response Cookies Timing 
| | checkUser | * General 
B subrmitOrderRequest Request URL: https://kyfw.12386.cn/otn/leftTicket/submitOrderRequest 
| Request Method: POST 
Status Code: & 288 OK 
Remote Address: 112.990.135. 2381443 
Referrer Policy: no-retferrer-vihen-downgrade 


kb Response Headers (9) 

| + Request Headers (12) 

| * Form Data view source view URL encoded 
secretStr: -JI1GyMIoel43AmIOyCCOho/th3JG/4PTGMUxEKS2Byr18JuOTLHBVPBJfd4eRUtRiP-bvdnpdTiob 
jYQA1Vkkqs185P5EsPeuK/ldya&6KLswYyo-BwsLXQkr41i2D2tDAndyyhoOhMZ EK n« HFAZai BMRQi 
TRBqkKtBpvlNmBeuolgEQdsdvMJ23SGTzzptyCwYtmEut4FFogeLPkEywCzTIEfeFOOAHp-U«F 2NIK 
eerNsgfY- 
train date: 2017-18-23 
back train date: 2617-18-21 
tour flag: dc 
purpose codes: ADULT 
query from station name: | H 
query to station name: 5; 
undefined: 


图 19-17 车 票 预订 请 求 二 


2 requests | 387 B transferr... 
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从 图 19-16 的 请 求 链接 分 析 可 知 ， 这 是 用 于 检查 用 户 登 录 状 态 ， 请 求 参 数 的 数据 为 空 。 从 图 
19-17 的 请 求 链接 、 请 求 参数 分 析 得 知 ， 这 是 一 个 提交 订单 的 请 求 ， 请 求 参 数 分 析 如 下 : 


(1) train date, query from station name 和 query to station name 在 19.4 节 已 明确 知道 。 
(2) back train date 是 回程 的 日 期 。 如 果 单 程 订 标 ， 访 参数 直接 取 当 天 日 期 即 可 。 

(3) tour flag 从 参数 值 (dc) 判断 ， 这 是 由 “单程 ”拼音 的 首 字母 组 成 的 。 

(4) purpose codes 的 参数 值 固定 不 变 ;， undefined 的 参数 值 为 空 。 

(5) SecretStr 是 一 串 不 规则 的 数据 ， 回 顾 19.4 节 ， 在 车 次 信息 里 面 也 含有 不 规则 数据 ， 猜 想 

这 两 者 是 否 一 样 ， 我 们 抽取 G312 车 次 的 信息 ， 如 下 所 示 : 

"S$2BJl1GyMIoelW3AmIOyCCOho®%2FthJG$2FAPfGMtLxEKS2Byrl19JUOTLHBVIBJfd40RUtR1PS2 
BbVdnpdTiob$0AjYQAlVkkqsl16P5EsPeuK$2Fldya6KLswYyo$2BBwWsLXQkr41i12D2tDAndyjyh 
OOhMZEKn£22BNFAZaiBMRQi$SOATRBqKt8pYl1NmBeu9lgEQdsdvMJ23SGTzzptyCwYtmEut4Ffog 
6LPkywCZT1EfeFOO4Hp$2BU$2BF2NIk$0AeeFN8fY5$3D| Wii] |6c0000631205|6G312|IZQlICW 
|IZQ|WHN[06:28/[|10:54[|04:26|Y|$2FCaZQBZdKPD70OTjFodC122F7y2N8jqdmZRAJHOrECZr 
eKGar1Z2|20171023/|3|QZ/|01/|09|null|O]I LLL HL LEE ILES 18] J00M090|0M9" 


XE DE ER BU. AAAG EAF, RATRE ERRI S AL [f el AbPTR, Ug "—" ARX 
“9%2B”、“/” 变 成 “%2F”。 在 第 5.7 节 中 ， 我 们 已 介绍 了 urlib.parse 提供 了 函数 对 数据 的 编码 
和 解码 处 理 。 

综合 上 述 分 析 ， 和 三 时 预订 功能 代 但 如下: 

def train order(secretStr, train date, query from station name, 
query to station name): 


# 获取 当前 日 期 


back train date = datetime.datetime.now().strftime('$Y-9Zm-$d') 


# 用 户 登 录 检 查 
uri — "'https-//kytw.12306.cn/otEn/ l'oqgin/checkuser' 
data = ( 
*ogson abtb': n 
} 
r — session.post(url, data-data) 


# 提交 车 票 预订 请 求 
url = 'https://kyfw.12306.cn/otn/leftTicket/submitOrderRequest' 


data = { 
'secretsStr': secretSLr, 
"train date': train date, 


'back train date': back train date, 

"tour Flag: de, 

"DBPDOSOC COdes > *ADUEI' 

'query from station name': query from station name, 
'query to station name': query to station name, 
"undefined": "T! 


} 
r = session.post(url, data-data) 


qx i 
session = requests.session() 
username = '13435423143' 
password = 'XXXXXXXXXXXX' 


login info - login(username, password) 
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1f login info: 
train date = '2017-10-23' 


query from station name - 'J M' 
querEy to station ndme — 武汉， 
train info dict ~ train info(train date, 


query from station name,query to station name) 


# 数据 格式 化 处 理 


secretStr-parse.unquote(train info dict['secretStr']) 
tram ordeér[5ccretsEr, train darle, 


query from station name, query to station name) 


196 提交 订单 


HB : 


车 票 预订 提 区 之 后 ， 从 浏览 器 上 可 以 看 到 页 面 发 生 了 跳 转 ， 在 新 的 页 面 上 需要 填写 乘客 信息 ， 
最 后 提交 订单 ， 如 图 19-18 所 示 。 


二 等 座 [ 4635) T 


一 等 座 ( 关 463.5 ) 
中 | 一 等 座 ( X 738.5 ) 
商务 座 ( ¥ 1458.5 ) 


MICRA IITE O~ 3 元 保费 最 局 33 万 元 保 原 


E H- z [IT pe Y * * 43 DN 7 n] | 


图 19-18 ”填写 乘客 信息 


-4 i > FA * a FE] A v n p n ; ^ X El = * L] e Ip 2 
填写 好 乘客 信息 之 后 ， 单 击 “ 提 交 订 单 ” 按 钮 ， 通 过 开发 者 工具 捕捉 请 求 信息 ， 如 图 19-19 
和 图 19-20 所 示 。 
Name à X |Headers | Preview Response Cookies Timing 
图 checkOrderinfo Y General 
getQueueCount | Request URL: https://kyfw.12386.cn/otn/confirmPassenger/checkOrderInfo 
Request Method: POST 
Status Code: V 200 ok 
Remote Address: 112.98.135.238:443 
Referrer Policy: no- referrer-when-downgrade 
* Response Headers (8) 
* Request Headers (12) 


Y Form Data VIEW source view URL encoded 


cancel flag: 2 

bed level order num: eaeaeeaaeaaaaaaaaaeeooonaaanaae 
passengerTicketStr: 0,0,1, 英 水 往 ,1 ,和 ,1 3435423143 ,MN 
oldPassengerStr: 英 永 福 ,1, m | 

tour flag: dc 

randCode: 

Json att: 

REPEAT SUBMIT TOKEN: 1c83c4d7b495472d18cb478b2aa8ad38 


2/Trequests | 980 B / 32... 


图 19-19 ”提交 订单 请 求 一 
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Name à |X |Headers | Preview Response Cookies Timing 


checkOrderlnfo * General 


E gstQueueCount Request URL: https://kyfw.12386.cn/otn/confirmPassenger/getQueueCount 
Request Method: POST 
Status Code: © 200 OK 
Remote Address: 112,90.135.238:443 
Referrer Policy: no-referrer-when-downgrade 
+ Response Headers (8) 
* Request Headers (12) 
Y Form Data view source view URL encoded 
train date: Mon Oct 23 2017 88:80:00 GMT+8888 【中 国标 准时 间 ) 
train no: 6c686006G31285 
stationTrainCode: 5312 
seatlType: O 
fromStationTelecode: 170 
toStationTelecode: WHH 
leftTicket: vi pumE7umhYOSEmxRy5mB2mwcCLToJwpnüstaLbda3tz23d$2B 
purpose codes: ee 
train location: Q7 
jJson att: 
2/7 requests | 980 B / 32.... REPEAT SUBMIT TOKEN: 1c23c4d7b495472018cb478b2aa8ad38 


19-20 ”提交 订单 请 求 二 
单 击 “提交 订单 ”按钮 后 ，Chrome 捕捉 到 两 个 POST 请 求 。 从 图 19-19 的 请 求 参 数 来 看 : 


(1) 参数 cancel flag. bed level order num. tour flag. randCode 和 json att 是 固定 不 变 的 。 

(2) 参数 REPEAT SUBMIT TOKEN 无 法 得 知 ， 可 能 由 其 他 请 求生 成 。 

(3) 参数 passengerTicketStr 和 oldPassengerStr 代表 个 人 乘 车 信息 。 观 察 参 数组 成 ， 发 现 每 个 
数据 之 间 用 逗号 分 阳 , 每 个 数据 有 可 能 代表 某 个 意思 ,为 了 进一步 验证 数据 的 意义 , 我 们 修改 乘客 
言 息 ， 如 图 19-21 所 示 。 


请 核对 以 下 信息 
2017-10-23 (周一 )  G312/ 广州 南 站 (06:28 开 ) 一 武汉 站 (10:54 到 ) 


EAO ”处 名 ”证 件 类 型 。 ”证 件 号 码 F 机 号 本 


13435423143 
Performance Memory Application Security Audits 
O Preserve log LJ Disable cache | Offline Online Y 
d JS CSS Img Media Font Doc WS Manifest Other 
Headers | Preview Response Cookies Timing 


General 
Request URL: https://kyfw.12306.cn/otn/confirmPassenger/checkorderInto 
Request Method: POST 
Status Code: © 266 OK 
Remote Address: 112.98.135.238:443 
Referrer Policy: no-referrer-when-downgrade 


+ Response Headers (9) 
H Request Headers (12) 


Form Data view source view URL encoded 
cancel flag: 2 
bed level order num: eaeeeeeeeeooeebeoeegeaBoboooeoo 
passengerTicketStr: 1,0,4, PUKE, 2 ,计时 时 时 122435423143, 
oldPassenger5tr: k47, 1, NN: 
tour flag: dc 
randCode: 
Json att: 
REPEAT SUBMIT TOKEN: 126bd3196ce5a76fba6849a01118208ff 


图 19-21 验证 请 求 参 数 


对 比 图 19-19 和 图 19-21 发 现 ，oldPassengerStr 的 数据 不 会 随 厦 席 别 和 票 种 的 变化 而 变化 ， 而 
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passengerTicketStr 会 随 之 变化 。 
为 了 寻找 passengerTicketStr 的 变化 规律 ， 我 们 多 次 修改 乘客 信息 ， 发 现 变化 规律 如 下 : 


(1) passengerTicketStr 前 三 个 数字 M、0、2 的 M 和 2 分 别 代表 一 等 座 和 儿 重 村，0 是 固定 
不 变 的 。 

(2) 席 别 编号 : 软卧 =4、 硬 座 =1、 硬 四 =3、 二 等 座 =O O) 、 一 等 座 =M、 商 务 座 =9。 

(3) 票 种 编号 : 成 人 票 =1、 儿 音标 -2、 学 生 票 =3、 残 车 票 -4 


确定 了 参数 passengerTicketStr 的 数据 含义 ， 同 时 发 现 一 个 问题 ， 每 班车 次 的 席 别 信息 是 动态 
变化 的 ， 但 无 法 确定 当前 车 次 还 剩 下 哪些 席 别 可 供 我 们 选择 。 从 图 19-18 看 到 ， 席 别 信息 是 一 个 下 
拉 杠 控件， 里 面 含 有 剩余 的 席 别 信息 ， 因 此 需要 找 出 当前 车 次 剩余 的 席 别 信息 ， 用 于 构建 参数 
passengerTicketStr。 分 别 从 XHR、JS 和 Doc 标签 得 找 席 别 信息 ， 最 终 在 Doc 标签 找到 ， 如 图 19-22 
和 图 19-23 所 示 。 


View: e= “= LJ Group by frame | LJ Preserve log LJ Disable cache 


| 加 Hide data URLs All | XHR JS CSS Img Media Font PES WS M 


A X Headers | Preview | Response Cookies Timing 
| 1391 
| 1392 

1393 

1394 

1395 

1396 

1397 

1398 

1399 fe ' ":null,'start time':null, val 
14808 

1401 \u5EA7 sida )Xu6709u7968 ' , 'Nu4EBCiu7B49Nu5EA7 (463 5005143 
14802 

1403 b, minutes ' :28, "month ':8, 'seconds' :日 time':-5520000, 't1mezoneOffse 
1484 

1405 

1406 

1407 

1408 

1409 
| 1410 

1411 
1412 


1/46 requests ... 


ticket seat code 


图 19-22 ”查找 席 别 信息 


| LJ Hide data URLs All | XHR JS CSS Img Media Font DS WS Manifest Other 

* Headers | Preview | Response Cookies Timing 

| 1391 var can add = 'Y'; 

var IsSstudentDate-false; 

var init seatTypes-[('end station name':null,'end time':null,'id':'M',' 


var defaultTicketTypes-[(['end station name':null,'end time':null,'id':' 


^ ticket seat codeMap-['3':[['end station name':null,' end time':null, 


ticketInfoForPassengerForm-['cardTypes':[Í'end station name':null,' 


orderRequestDTO-['adult num':e,'apply order no':null,'bed level or 
- init limit ticket num-'5'; 
- oldTicketDTOos-""; 


goorderDTO-""; 


图 19-23 ” 碍 找 席 别 信息 二 
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从 图 19-22 和 图 19-23 看 到 ， 由 于 席 别 的 价钱 具有 特殊 唯一 性 ， 因 此 可 利用 其 特殊 性 来 实现 快 
速 查找 ， 发 现在 Doc 的 请 求 信息 中 找到 剩余 的 席 别 信息 。 席 别 信息 写 在 变量 ticket_seat_codeMap 
中 ， 以 “id: 义 ” 格 式 存放 。 

再 回 到 图 19-19 的 REPEAT SUBMIT TOKEN 参数 ， 从 内 容 中 无 法 得 知 数据 含义 ， 而 且 数据 
是 动态 变化 的 ， 为 了 确认 数据 来 源 ， 分别 从 XHR、JS 和 Doc 标签 进行 排查 ， 在 Doc 标签 找到 数据 
来 源 ， 如 图 19-24 所 示 。 


Filter Hide data URLs All| XHR JS CSS Img Media Font lB WS Manifest 


Name à |X Headers | Preview | Response Cookies Timing 
ST script» 
全 10 | /*«! [CDATA[ */ 
i var ctx-'/otn/'; 
var globalRepeatsubmitToken - 126bd3196ce5a76fb06049a0111820ff' ; 
var global lang = zh CN ; 
var sessionInit = 'Xu9ECAXu6C38Xu7965' ; 
var isShowNotice - null; 
var CLeftTicketurl = null; 
var isTestFlow - null; 
var isMobileCheck = null; 
var passport applId - null; 
var passport login - null; 
var passport captcha - null; 
var passport authuam - null; 
var passport captcha check - null; 
var passport authclient - null; 
var passport loginPage - null; 
var passport okPage - null; 
var passport proxy captcha = null; 
/*]]5*/ 


9| e/scrint» 
1/45reque. Aa .* 126bd3196ce5a76fb06049a01 11820fl 


图 19-24 ”查找 请 求 参数 


可 以 发 现 ， 参 数 REPEAT SUBMIT TOKEN 是 Doc 标签 的 JavaScript 变量 。 综 合 上 述 分 析 ， 
图 19-19 的 实现 代码 如 下 : 


# 获取 Doc 标签 的 数据 
url = "'https://kytw.12306.cn/otn/contirmPassenger/:initpc' 


data = ( 

"SOm 5A 

} 

r = session.post(url, data-data) 
# 获取 参数 


get token = r.text.split('globalRepeatsubmitToken’') [1] -splTt(*; *) [0]. 

peplacer'-"'" ''j renlace[("'" *' .strip() 

scal codec sii 7 lot ple Lickel seat Co Mp IIT. 
spItt'r J)IBI-SEEI1D(I) 

E 找 出 座位 编号 并 去 重 

temp list = re.findall(r™ id:"(.+2)}'"',",seat code str) 

temp list = list(set(temp list)) 

# 获取 第 一 个 席 别 编号 

seatType = temp list[0] 

# 检查 订单 信息 

# 构建 请 求 参 数 ，name- 乘 客 姓 名 ，identity card- 喘 份 证 号 

# phone number- 电 话 号 码 ， 票 种 为 成 人 票 

oldPassengerokr — name 1 t identity card qoc 


passenger ckeEpStr Se Eye TOOne e Identity cad cu 
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+ phone number + '.NW' 
url = 'https://kyfw.12306.cn/otn/confirmPassenger/checkOrderInfo' 
data = { 
"cancel flag: 12r, 
'bed level order num': '000000000000000000000000000000', 
'passengerTicketStr': passengerTicketstr, 
'"oldPassengerstr' - oldPassenger5tr, 


“COUE Flag": "dc, 

"randcodge*- tTI, 

" Jaon atk: "t" 

"REPEAT SUBMIT TOKEN': get token 
} 

r — session.post (url,data-data) 
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上 述 代 码 只 实现 了 图 19-19 的 功能 ， 要 完成 订单 提交 ， 还 要 实现 图 19-20 的 请 求 ， 图 19-20 请 


(1) train date, train no. stationTrainCode, fromStationTelecode. leftTicket 和 train 


可 在 15.4 ES 4 DC b PC. 
(2) REPEAT SUBMIT TOKEN 和 seatType 可 在 图 19-19 实现 的 代码 中 获取 。 
(3) purpose codes 和 json att 是 固定 不 变 的 。 


结合 图 19-19 和 图 19-20 的 分 析 ， 提 交 订 单 的 功能 代码 如 下 : 


def creat order(name, identity card, phone number, train date, 
train inio dict): 


# 获取 Doc 标签 的 数据 


url = 'https://kyfw.12306.cn/otn/confirmPassenger/initDc' 
data = ( 
"Json dtt 
} 
r= session.post(url, data-data) 
# 获取 参数 


key check isChange = r.text.split('key check isChange')[1]. 


location 


split(,"'} [0] -replace({(":";, '*).renlace["'". *''josrtrpt) 


get token = r.text.split('globalRepeatSubmitToken') [1]. 


split('z'3IDI-repilace['—', *'*'j.renlacc("'", ""}.strip{) 


seat code str = r.Lext.split('bickeb seat codeMap-') [1]. 
spErE(' E UYTOT- SEPTDT) 

# 找 出 席 别 编号 并 去 重 

temp list = re.findalll(r™ id':"(.+2})}',", seat code str) 

temp list = list(set(temp list)) 

seatType = temp list[1] 


# 检查 订单 信息 

# 构建 请 求 参数 ，name- 乘 客 姓 名 ，identity card- 身 份 证 号 

# phone number- 电 话 号 码 ， 票 种 为 成 人 票 

oldPassengerstr = name + ,1,' + identity card + ',1 ' 

passengerTicketStr = seatType-c',0,1,'-«name-',l,'«identity card- 
"cr phone number + ',N' 

url = 'https://kyfw.12306.cn/otn/confirmPassenger/checkOrderInfo' 

data = { 

“Cancel Flag: 27, 
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'bed level order num': '000000000000000000000000000000', 
'passengerTicketStr': passengerTicketstr, 


"OTldPassengerortr :- otdPasscngerstrp, 
"tour Pligg : det, 

"randcode': '*, 

= Jaon dip: t4 


'REPEAT SUBMIT TOKEN': get token 


} 

r — session.post(url, data-data) 

# 提交 订单 信息 

F train date, train no,stationTrainCode 

# fromStationTelecode, toStationTelecode, 

# leftTicket,train location 来 自 车 次 信息 

# seatType 和 REPEAT SUBMIT TOKEN 来 自 Doc 标签 的 数据 
# purpose codes 和 json att 固定 不 变 


while 1: 
url = 'https://kyfw.12306.cn/otn/confirmPassenger/getQueueCount' 
# 日 期 格式 化 处 理 


check ticket date — train date + * 00:00:00" 
timeArray = time.strptime(check ticket date, "£$yY-$m-£$£d $H:$M:$£S") 


date = time.strftime("$a $b $d $Y", timeArray) 
data = ( 
'train date': date + ' GMT«0800 (中 国标 准时 间 )"， 
"Eraln TO": train info dicb['traain no']. 
'stationTrainCode': train info dict['stationTrainCode'], 
Seat rype: sceal Type, 
"fromStationTelecode': train Iinfo dict|'fromstatronreteécode"'], 
'LostationTelecode': train info dict['toStationTelecode'], 


#1leftTicket 进行 数据 格式 化 处 理 


'"IetETricket'- parse.unguote(train info dict['leftTicket'[, 


"DHIDpOSS 6Ccodocs': 00'. 
"Lrain locatdgon': train info dict["'train locatiom']1, 
1 qaom EE tt 


"REPEAT SUBMIT TOKEN': get token 
) 
r — session.post(url, data-data) 
print (r.text) 
# 判断 请 求 是 否 成 功 
if 'XAZUTU, WAREM" not in str(r.text): 
break 
if name "comam 
session = requests.session() 
username = *'13435423143' 
password — 'xxxxx' 
login info - login(username,password) 
tt login info: 
train dale — 12017 10 23! 


query from station name = ' M? 
query to station name = “武汉 ， 
train info dict ~ train info(train date, 


query from station name,query to station name) 
secretstr = parse.unquote(Erain info dict['secretsStr' |) 
train order(secretStr, train date, query from station name, 
query to station name) 
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name = ' 黄 水 祥 ' 

identity card = "xXxXXXXXXXXXXX' 

phone number = '134354231]43' 

creat order(name, identity card, phone number, train date, 
train info dict) 


19.7 生成 订单 


用 户 提 交 订 单 之 后 ， 下 一 步 是 确认 订单 ， 在 网 页 上 单 击 “ 提 交 订 单 ” 按 钮 ， 会 弹出 信息 核对 
窗口 ， 主 要 供用 户 确认 乘 车 信息 和 乘客 的 个 人 信息 ， 如 图 19-25 所 示 。 


IH HO Pri: Tos 


2017-10-23 (4—)  G312/ 广州 南 站 《06:28 开 ) 一 武汉 站 (10:548 
序号 席 别 ERO EO ”证 件 类 型 证件 号 码 alei 


WAT kA ARA E 13435423143 


* 先 座 后 如 R GS EL 2 5 Lm, Ai 5 S Bf 机 3 18; ; FH 请 Ka 位 
Cp is pn 
pou be ; E A B C 1 T 1 D F 
Caio 1 ; xs à 


本 次 列车 ， —ga 260. 


返回 修改 


图 19-25 ”信息 核对 


当 用 户 信 息 核对 无 误 后 ， 单 击 “ 确 认 ” 按 钮 ， 订 单 就 会 自动 生成 ， 同 时 在 开发 者 工具 捕捉 到 
两 个 请 求 信息 ， 如 图 19-26 所 示 。 


司 Hide data URLs All EG JS CSS Img Media Font Doc WS Manifest Other 
* | Headers | Preview Deponse Cookies Timing 


| ee ee dt Method: POST 

|. ] queryOrderWaitTime'ra... Status Code: & 280 OK 
Remote Address: 112.98.135.238:443 
Referrer Policy: no-referrer-when-downgrade 


* Response Headers (9) 

+ Request Headers (12) 

T Form Data view source view URL encoded 
passengerTicketStr: 0,0,1, 5 ki T, 1, MEER | 1 3435423143,N 
oldPassengerStr: ok É, 1 A 
randCode: 
purpose codes: 00 
key check isChange: 12D8899A81DB1955DCC9FA934C BAEBGD78DF55FB15993F 7A44C 82A92 
leftTicketStr: 152FulrFmsvHUBuyATa;jgRPWM91TbCwgPa7o0WU5avrD97LADq3x 
train location: QZ 
choose seats: 
seatDetailType: 660 
roomType: ee 
dwAll: N 
json att: 

2/58requests | 1.1KB/2.5., REPEAT SUBMIT TOKEN: c66267b2968f7fc371896c224955dd60 


图 19-26 ”确认 订单 
从 图 19-26 的 请 求 参 数 分 机 ， 参 数 分 为 三 种 类 型 : 


C) 已 明确 的 参数 ， 在 前 面 的 内 容 中 已 分 析 说 明 ， 如 passengerTicketStr、oldPassengerStr、 
leftTicket、 train location 和 REPEAT SUBMIT TOKEN. 
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(2) 参数 值 是 固定 不 变 的 ， 如 randCode. purpose codes. seatDetailType. roomType. dwAll 
和 json att。 
(3) 参数 无 法 明确 ， 如 choose seats 和 key check isChange。 


从 参数 choose seats 的 命名 分 析 ， 其 代表 选 座 信息 。 在 图 19-25 中 ， 用 户 确认 订单 之 前 ， 还 可 
以 选择 座位 位 置 , 座位 以 A~F 命名 , 如 果 参 数值 为 空 , 束 默 认为 网 站 目 动 选 座 ; 如 果 参 数值 为 A~ 
F 中 的 某 个 值 ， 就 说 明 车 票 的 座位 是 由 用 户 目 行 选 择 的 。 

参数 key check isChange 无 法 确定 ， 要 找 出 该 参数 的 来 源 ， 首 先 分 析 这 个 请 求 是 否 由 单 击 图 
19-25 的 “确认 ”按钮 所 触发 ， 而 图 19-25 的 信息 核对 窗口 是 单 击 图 19-18 的 “提交 订单 ”按钮 所 
产生 的 ， 在 这 两 个 过 程 里 面 ， 网 页 没有 发 生 刷 新 ， 新 增 的 请 求 信息 如 图 19-26 所 示 。 这 就 说 明 ， 参 
数 key check isChange 可 能 来 目 于 图 19-18 全 部 请 求 信息 中 的 某 个 请 求 。 因 此 ， 我们 分 别 从 XHR、 
JS 和 Doc 标签 但 找 参 数 ， 通 过 快捷 查找 ， 在 Doc 标签 中 找 出 参数 key check 1ısChange, 如 图 19-27 
所 示 。 

Hide data URLs A xHR J5 CSS Img T Font Doc WS Manifest Other 


Headers | Preview | Response Cookies Timing 


三 | initDic 


1395 $Nu7968' 1]; 


1397 |time' :null, 'value' :'\u62A4\u7167'}]; 
1399 |Au4EBCXVu7BA49NU5EA7 5], 1 :[{ end station name':null, end time':null,' id' dnm 


1401 ;tation name':null,'start time':null,'value':'Xu62A4Xu7167' ] ], ' isAsync':'1', aaa 
10, 


483 [Ticket :null,'regrpAddress':null,'reqTimerveftstr':null,'reserve flag':'A','seat detail type code 


1/ 46 requests ... : key check isChange 


图 19-27 ”查找 请 求 参数 
根据 上 述 分 析 ， 订 单 生成 代码 如 下 : 


url = 'https://kyfw.12306.cn/otn/confirmPassenger/confirmSingleForQueue' 
data = { 

'passengerTicketStr': passengerTicketstr, 
"oldPassengerSEr - oPdPasscngerotr. 

"Eandocodo'- TE 

"pHEpose codes: *00*; 

'key check isChange': key check isChange, 
"IettyYacketStr': train into dicLl"Ierti:ickeb'Ln, 
'"Lrain Tocatyon':; trasn info dict['rrain location'], 
"choose seats': ''. 

'seatDetailType': "000 7 ， 

"roomFlvpe"- *00*; 

"udwWALIT: "N"; 

"Sor dett v 

"REPEAT SUBMIT TOREN': get token 

} 
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r= session.post (url,data-data) 
print (r.text) 


由 于 此 功能 与 19.6 节 的 关联 较 多 ， 因 此 在 此 不 再 定义 新 的 函数 ， 将 此 功能 直接 添加 到 19.6 节 
的 函数 creat order0 中 ， 代 码 如 下 : 


def creat order(name, identity card, phone number, train date, 
train info dict): 


# 获取 Doc 标签 的 数据 


url = "'https-//kyftw.12306.cn/otn/confirmPassenger/inrtbc" 
data = ( 
Sm dtp: m 

} 

r — session.post(url, data-data) 

# 获取 参数 

key check isChange - r.text.split('key check isChange')[1]. 
Spisit', 100]. replace[':'., *'Yreplaco("'". ''I.strimtj 

get token — r.Fext.splirE('qrobalBepceat3submrtPoken"') [T T- 
spiivt(':'MIDI]I- replace['-', *'y.reptace("'". TJ -stript 


Seat code str = r.LexL.split['trcket seat codeMap-') [1]. 
split{'";") [0]. strip() 

# 找 出 席 别 编号 并 去 重 

Ecm list re- Lindall{r miid: T 21 Seal codo Str) 

temp list = list (set (temp list)) 

seatType = temp list[l1] 


# 检查 订单 信息 

# 构建 请 求 参 数 ，name- 乘 客 姓 名 ， identity card-H fub 

# phone number-!Biá $55, ZEE A 

oldPassengerstr = name + '.,1," + identity card + ',1 ' 


passengerTicketstr = seatType + ',0,1," + name + ',1,' + identity card 
+ ',' + phone number + ',N' 

url — 'https://kyfw.12306.cn/otn/confirmPassenger/checkOrderInfo' 

data = { 


Cancel Flag 2 
'bed level order num': '000000000000000000000000000000', 
'passengerTicketStr': passengerTicketsStr, 
"OldPassengerstr - pidPássengerSir, 
"Lour Flag - “det, 
"randode t: Tr, 
" Jaon gtb'i T, 
"REPEAT SUBMIT TOKEN': get token 
} 
r= session.post(url, data-data) 
# 提交 订单 信息 
F train date, train no,stationTrainCode 
# fromStationTelecode, toStationTelecode 
) jIettTicket. train location KA ED B 
# seatType fl REPEAT SUBMIT TOKEN KH Doc 标签 的 数据 
# purpose codes 和 json att 固定 不 变 


while 1: 
url = 'https://kyfw.12306.cn/otn/confirmPassenger/getQueueCount' 
# 日 期 格式 化 处 理 


check Lickel dale Lram date r 0000.00° 
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timeArray = time.strptime(check ticket date, "£yY-$m-£$£d $H:$M:$£S") 


date = time.strftime("$a $b $d $Y", timeArray) 

data = ( 
'train date': date + ' GMT«0800 (中 国标 准时 间 )"， 
"Erai no': train info dicbl*train NOT], 
'"statronTrarnCode'- traim info dict['stationTrainCode'l, 
"SsodbTvpe - scatTvpse, 
'fromStationTelecode': train info dict['fromStationTelecode'], 
'tostationTelecode': train info dict['toStationTelecode'], 


HeftTicket 进行 数据 格式 化 处 理 
"leftTicket": parse.unquote(Lrain info dictl[l"'leftTicket"]), 


"CDHIDOSC COdeS =- "00905 
‘Erain location': Lrain info dict|' Lrain locatron'l, 
T qson gtbts T 


"REPEAT SUBMIT TOKEN : got token 
} 
r — session.post(url, data-data) 
print(r.text) 
# 判断 请 求 是 否 成 功 
if "系统 繁忙 ， 请 稍 后 重 试 "” not in str(r.text): 
break 
# 生成 订单 
url = 'https://kyfw.12306.cn/otn/confirmPassenger/confirmSingleForQueue' 
data = ( 
'passengerTicketStr': passengerTicketstr, 
"OldgPassenger5tr' - oldPássengerSLr, 
'randCode': '', 
"purpose codes: (001, 
'key check isChange': key check isChange, 
"IeftlicketStr': train into dicb["'leftTicket'|, 


"train locaLionHn': Lrdindn info dict trall Iocadtion'i|. 
"choose seats': '*'. 
"seabbetarlType': *000*. 
"roomlype' ; "00*; 
"OwATEI'- NT. 
SO alk n a, 
"REPEAT SUBMIT TOKEN'- get token 
} 
p = session.post (url, data=data) 


prinb(r.text) 


19.8 7k AX »h 4 


本 章 介 绍 了 12306 $6256 1529 5333023, BAH EIE s LP: 
1. IE SCHULBS ITE FR ZJRÉ 


(1) 验证 码 验 证 。 
(2) 用 户 登 录 与 验证 。 
(3) 查询 车 票 。 
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(4) 预订 车 票 。 
(5) 提交 订单 。 
(6) 生成 订单 。 


2. 5 个 函数 的 功能 和 使 用 

e login): 用 户 验证 和 登录 ， 将 验证 码 验 证 和 用 户 登 录 与 验证 合并 在 该 函数 中 ， 
e city name): 获取 城市 的 编号 ， 将 城市 名 称 转换 为 城市 的 英文 编号 。 

e train info): 查询 车 次 ， 并 调用 city name(). 


e train order: 预订 车 票 ， 主 要 生成 订单 信息 。 


237 


e creat order: 填写 订单 信息 并 提交 确认 ， 将 提交 订单 和 生成 订单 功能 合并 在 该 函数 中 ， 


3. 项 目 整体 代码 


import requests 

import time 

import datetime 

import re 

from urllib import parse 


# 用 户 登 录 
def login (username, password): 
te 40,40,114, 35,192, 39,257, 36,42, 115, 119, 107, 185,124, 272, 17 
code ETSb | 
"pt: CHDSUHA 
Dot Bt 55 
Patre gg d89s 
4 OTTDOTI 3h. 
utr DA DEN 
"hue SXTrS TOS t 
UIS TYBS3.T2. t. 
Du IX TIR 


} 

HERK 

Headers P Hscr-Ageur - 
'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 ' 
'"(KHTMbEb,., like Gecko) Chrome/653.0.3218.0 5Satfari/537.3J6', 
CHETEFPOF - 
'https://kyfw.12306.cn/otn/login/init"} 

url = 'https://kyfw.12306.cn/passport/captcha/captcha-image? 

login site-E&module-login&rand-sjrand' 

# 忽 略 证 书 验证 

r = session.get(url, headers-headers, verify-False) 

# PX UE EE 


E = open ("code.png'",;, wb") 
t.wrileir.content) 

[f.closert) 

# 输 入 验证 码 图 片 位 置 , 多 个 验证 码 用 英文 逗号 分 开 
code-input (" 请 输入 验证 码 : ") 

ger Coden- mE 

for 1 in code.spirb(',"'):- 


# 根据 输入 每 组 图 片 的 组 号 ， 获 取 对 应 的 坐标 位 置 
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get code += code 11st [1 ] 


FAS ERO pz ds 

data-( 
“answer :get code, 
"login srbetctmt5 


"rand':'sjrand' 
} 
url = 'https://kyfw.12306.cn/passport/captcha/captcha-check' 
r — session.post(url, data-data) 
print (r.text) 
if ' 验 证 码 校 验 失 败 ' not in str(r.text): 


THSF 
url = 'https://kyfw.12306.cn/passport/web/login' 
data = { 

'username': username, 


'password': password, 
'appid': "otn" 
] 
r — session.post(url, data-data) 
print (r.text) 
if ' 密 人 码 输入 错误 ' not in str(r.text): 
# 登 录 验 证 第 一 次 请 求 
url = 'https://kyfw.12306.cn/passport/web/auth/uamtk' 
data = ( 
'appid': "otn" 
} 
r — session.post(url, data-data) 
# 登 录 验 证 第 二 次 请 求 
newapptk = r.json()['newapptk'] 
url — 'https://kyfw.12306.cn/otn/uamauthclient' 
data = I 
"tk": newapptk 
} 
r-session.post(url, data-data) 
print(r.text) 
return True 
else: 
return False 
return False 


# 获取 城市 编号 
def city name(): 
url — 'https://kyfw.12306.cn/otn/resources/js/framework 
/station name.js?station version-1.9031' 
city code - session.get (url) 
city code list — city code. text- split") 
city dict = {} 
for k, 1 in enumerate (city code list): 
EE 'R' xm 1: 
# 城市 名 作为 字典 的 键 ， 城 市 英文 编号 作为 字典 的 值 
city dict[city code list[k + 1]] = city code list[k + 2] 
return (city dict) 


# 获取 车 次 信息 
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def train info(train date,query from station name,query to station name): 
# 调 用 函数 city name 获取 城市 编号 


city dict = city name () 


from station - city dict[query from station name] 
to station - city dict[query to station name] 
# 获取 车 次 信息 
while 1: 
# 第 一 次 请 求 
url = 'https://kyftw.12306.cn/otn/leftTicket/ Tog? 


leftTicketDTO.train date-$s&leftTicketDTO.from station- 
$s&leftTicketDTO.to station-$s&purpose codes-ADULT' 


a 


*$ (train date, from station, to statron) 


r — session.get (url) 
# 第 二 次 请 求 
# 请 求 地 址 的 query 可 能 变 为 queryA， 可 通过 try......except 控制 
try: 
url = 'https://kyfw.12306.cn/otn/leftTicket/query? 


leftTicketDTO.train date-$s&leftTicketDTO.from station- 
$s&leftTicketDTO.to station-$s&purpose codes-ADULT' 


a 


$ (train date, from station, to station) 


r = session.get (url) 
test = r.J]son({)['data'] ['"result"'] 
excep: 
url = 'https://kyfw.12306.cn/otn/leftTicket/queryA? 


leftTicketDTO.train date-$s&leflTicketDTO.from station- 
$s&leftTicketDTO.to station-$s&purpose codes-ADULT' 
$ (train date, from station, tio station) 
r — session.get (url) 
time.sleep(2) 


if ' 非 法 请 求 ' not in str(r.text) and '"result":[]' not in str(r.text): 
brain info info = r.jsont) 
trarn inio det - PI 
For T in train ralo :nfo['data']['resurt"]: 
brain info status = 1.split("|") 


IE train ipfo statusi0l 1- *t*- 
train info dicti secrerstr']-trarzrm info status] 
train info dict[ train no']-trarzn info statusi-] 
train into dicrt["'sEationrraintCode']-train aünfo statusii] 
train info daict]'ftromstatrzronTelscode*]- 


train into statusi 


train info dict]'tostationTeiscode']-rrazn info statusi] 
train info dict['lerttTickot']—-Erauin into statusit12] 

train info dictl]'trarn location'|-train inilo status[151 
return train inio dict 


t BFF 
def train order(secretStr, train date, query from station name, 
query to station name): 
# xx H 8j 
back train date = datetime.datetime.now().strftime('$Y- Sm zd*) 
# 用 户 登 录 检 查 


url = 'https://kytw.12306.-cn/otn/togin/checkuüser' 
data = ( 
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" Json atti: 
} 
r = session.post(url, data-data) 
# 提交 车 票 预 订 请 求 
url — 'https://kyfw.12306.cn/otn/leftTicket/submitOrderRequest' 
data = ( 
Usecrer5Ltr': secrerbr5Llr, 
'Lrain date': train date, 
'back train date': back train date, 
"Lour Flag: de 
"purpose Codes: *ADHEPSE' 
'query from station name': query from station name, 
'query to station name': query to station name, 
"undefined': "' 


) 
r — session.post(url, data-data) 


# 生成 订单 


def creat order(name, identity card, phone number, train date, 


train inio dict): 


# 获取 Doc 标签 的 数据 


url — 'htEps:/fkyvtw.12306.cn/obln/contirmnPassenger/initlx" 
data = ( 
1 Json atk": m 
} 
r = session.post(url, data-data) 
# 获取 参数 
key check isChange ~ r.text.split('key check isChange')[1]. 
split (",'") [0] .replace(':", T"). 


renlace["'". 11} stripi] 

get token = r.text.split('globalRepeatSubmitToken') [1]. 
split{";") I0] .replace{l = ",. ""}). 
replace(™"™, '').strip() 

seat code str = r.text.split('ticket seat codeMap=") [1]. 

spliti": IT. sErIDI) 

# 找 出 席 别 编号 并 去 重 

temp list = re-rwundatt[r""id'-"(.1?)',", seat code str) 

temp list = list (set (temp list)) 

seatType = temp list[l1] 


# 检查 订单 信息 

# 构建 请 求 参 数 ，name- 乘 客 姓名 ， identity card- HE frub* 

# phone number- 电 话 号 码 ， 票 种 为 成 人 票 

oldPassengerstr = name + '.l," + identity tard + ',1 ， 


passengerTicketstr = seatType + ',0,1,* + name + ',1,* + 

identity card + ',' + phone number + ',N' 
url — 'https://kyfw.12306.cn/otn/confirmPassenger/checkOrderInfo' 
data = ( 


"cancel flag": 二， 

'bed level order num': '000000000000000000000000000000', 
'passengerTicketStr': passengerTicketsStr, 
COTHPgSSOHngoerSEr. : obldPdsSs5nger3atr, 

"Lour Flag: '"gc', 

'randCode': '', 
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"uso atk t ovt. 
"HEBRAT SUBMIT TOKEN': get token 


= session.post(url, data-data) 
提交 订单 信息 

$ leftTicket,train location XB Es 

# seatType 和 REPEAT SUBMIT TOKEN KH Doc 标签 的 数据 

# purpose codes 和 json att 固定 不 变 

while 1: 

url = 'https://kyfw.12306.cn/otn/confirmPassenger/getQueueCount'l 
# 日 期 格式 化 处 理 

check ticket date = train date + ' 00:00:00" 

timeArray = time.strptime(check ticket date, "£yY-$m-$d $H:$M:$£S") 


} 
下 
# 


date = time.strftime("$a $b $d $Y", timeArray) 

data = ( 
'train date": date + ' GMT«0800 (中 国标 准时 间 ) 
有 
'stationTrainCode': train info dict['stationTrainCode'], 
"usogL'yvpe'- seaLType, 
'fromStationTelecode': train info dict['fromStationTelecode'], 
'LosStationTelecode': train info dict['toStationTelecode'], 


#1eftTicket 进行 数据 格式 化 处 理 
'"IleftTicket'- parse.unquote (train info dict["'leftTicket"]), 


"pPürposSe codes: 00T; 
"train location": Lrain info dict train locatron'l, 
1 udusonm ALET: t' 


'REPEAT SUBMIT TOKEN': get token 
} 
r — session.post(url, data-data) 
print (r.text) 
E 判断 请 求 古 否 成 功 
if RAS PAARMA" not in str(r.text): 
break 
# 生成 订单 
url ~ 'https://kyfw.12306.cn/otn/confirmPassenger/confirmSingleForQueue' 
data = ( 
'passengerTicketStr': passengerTicketsStr, 
"ODdIPasseongeratr - oldPasscengdgsSrotr, 
"randcode'z t; 
‘purpose Coupes: CUT 
'key check isChange': key check isChange, 
"IetrYacketstrr': train rHIo drcb[]'WIertTrckGSE']. 
Cron location": brain info etl train locstron |], 
"choose sogLs': TI, 
'seatDetailType': '000', 
TtarpomPvne': "007; 
"dWATLI'-* “N's 
t Json itc nA 
“REPEAT SUBMIT TOKEN': get token 
} 
r= session.post(url, data-data) 
print (r.text) 
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requests.session() 


# 网 站 账号 密码 


username 
password 
login info 


"13435423143" 
"XXXXXXXX' 
login (username, 


1f login info: 


train date 
query from station name 
query to station name 
train info dict 


secretstr 


“YY YY MM DD 


train 


password) 


= ,广州 
1 武汉 ， 


info(train date, 


query from station name,query to station name) 


train 


query from station name, 


# 乘客 信息 


name 


identity card = 


AKTE 


XXXXXXXXX' 


phone number = '13435423143' 


creat order (name, 


上 述 代 码 运 行 
mea dor 


InsecureRequestWarning! 


d >R Th*, 


l'result message": 


stlarning) 


uuum : 


InsecureReque 


l'result message" 


InsecureRequestVarninzg) 
Y UREE TOE USE T TuS 


l'apptk" _Wrily 


InsecureRequestWarning!? 
l'validateMessagesShowId :". 
lI" validateMessagesShowld":" 


result code" 


validatorMessage', " 


validatorMessage", " 


train date, 


结果 如 图 19-28 所 示 。 


57: InsecureRequezstWarning: 


: InsecureRequestWarning: 


:D, "uamtk": 


: InsecureRequestWarning: 


"NkI-63T3WXNw8 405nk 3 rM Rar sued 


: ImserurekRsgquestWarning: 


AST: InsecureReguestWarning: 


57: InserureReguestWarning: 


T: InsecureRequesiWarning: 


T: InsecureRequesgtWarning: 


: InsecureKaquestWarning: 


: InsecureKequestWarning: 


: InsecureRequestWarning: 


; InsecureRequestWarninz: 


status':true, httpstatus" 


status':true, "httpstatus" :200, 


"result message": 


:200, "data" ; 
"data" 


图 19-28 程序 运行 


date, 


Unverified HTTPS 


Unverified HTTPS 


Unverified HTIPS 


Unverified HTTPS 


Unverified HTTPS 


Unverified HTTPS 


Unverified HTTPS 


Unverified HTIPE 


Unverified HTIPS 


Unverified HTIPS 


Unverified HTTPS 


“ 答 证 通过 


Iverified HTTPS request is being made. 


parse.unquote(train info dict['secretStr']) 
train order(secretsStr, 


query to station name) 


request is 


request is 


"iEqRuWXqR8xwIBQoSvIkU4hE3CNeCeVOWfpgnxhEf3AaflllO"| 


avurllibs3*eonnectionpaol.p;y: 


reguest is 


request is 


request is 


request is 


request is 


request is 


request is 


reguest is 


request 15 


l'uount" ;:" 0^, "ticket": TH. 


; l'submitStatus" 


:truel. 


AR 


, username 


identity card, phone number, 
train info dict) 


being made. 
being made. 


J57: InsecureRequestWarning: Unverified HTIPS request is being made 


being made. 


being made. 
being made. 
being made. 
being made. 
being made. 
being made. 
being made. 
being made. 


B. Talseg-s^ 


"messages" TE 


Adding 


Adding 


Adding 


Adding 


ERIP 


Adding 


Adding 


Adding 


Adding 


Adding 


Adding 


Adding 


Adding 


Adding 


"validateMessages" 


certificate 


cartificatie 


certificate 


certificate 


certificate 


certificate 


certificate 


certificate 


certificate 


cartificate 


certificate 


certificate 


certificate 


cuuntT":"0^."g 


: {}} 


verification is 


varification 


verificntion 


veriiicntion 


verification 


verification 


verification 


verification is 


verification 


varification 


verificntion 


veriiicntion 


pie Talse k: 


strongly 


3 strongly 


strongly 


3 strongly 


s strongly 


5 Strongly 


is strongly 


strongly 


cz strongly 


3 strongly 


3 strongly 


strongly 


verification is strongly 


r E 
messages 


从 图 19-28 最 后 的 数据 看 到 "httpstatus":200,"data":{"submitStatus":true}， 代 表 购 票 已 成 功 。 用 


户 可 以 在 “我 的 12306 一 未 完成 订单 ”中 但 看 已 生成 的 订单 内 容 ， 最 后 的 付 球 流程 需要 用 户 目 


成 ， 此 时 整个 购 累 流程 真正 完成 。 


4. HE- E 


的 建议 


A 
修改 和 完善 ， 下 面 列 出 几 条 值得 完 


HH E 


imp 


AC ar 


11 76 


过 程 ， 但 遇 到 春运 期 间 的 抢 景 ， 程 序 的 稳定 性 需要 进一步 
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(1) 增加 咎 次 可 选择 功能 ,将 得 询 出 来 的 车 次 的 有 友 咎 时间、 时 长 等 信息 提供 给 用 户 目 行 选择 。 

(2) 判断 订单 生成 状态 ， 对 生成 失败 的 订单 进行 相应 处 理 。 

(3) 寞 党 处理 机 制 ， 因 为 网 站 的 稳定 性 一 二 古 饱 受 争议 的 问题 ， 所 以 要 完善 异常 处 理 机 制 ， 
确保 出 现 寞 第 的 时 候 能 及 时 处 理 ， 提 高 程序 的 稳定 性 。 


KAR: 玩 转 做 博 


20.1 项 目 分 析 


接触 过 微 博 的 读者 都 知 志 ， 一 些 热门 的 微 博 有 很 多 转发 、 评 论 和 点 赞 ， 而 且 博 主 有 很 硕大 的 
粉丝 数 。 这 么 高 的 数据 量 其 实 都 离 不 开 和 营销 手段 ,在 庞大 的 数据 中 有 多 少 是 真实 数据 不 为 人 知 ， 但 
可 以 肯定 的 是 , 这 些 数据 肯定 有 水 分 存在 。 那么 这 些 有 水 分 的 数据 是 如 何 产 生 的 呢 ? 这 就 是 本 章 讲 
述 的 重点 。 

本 章 主要 实现 的 功能 如 下 。 
weibo login.py: 微 博 用 户 登 录 ， 同 时 也 是 程序 运行 文件 。 
weibo verify code.py: 第 三 方 平台 API， 实 现 验证 码 识 别 。 
weibo collectpy: 根据 关键 字 搜 索 并 采集 热门 微 博 。 
weibo send.py: 发 布 微 博 ， 
weibo follow.py: 关注 用 户 。 
weibo forward.py: 微 博 点 赞 和 转发 评论 。 
data.csv: 存储 采集 数据 。 
文件 夹 video 和 image: 分 别 存储 采集 的 视频 和 图 片 。 


202 HP X$ X% 


XE TATE EE VA, dXETACHUCISEUA BA) UI He tbe H1)? XE Bee Hs MAERA E — 2 89 
EKIH JP? K YE. Chrome 浏览 大 对 微 博 的 登录 机 制 进行 分 析 , CE] V, as PA http://weibo.com/, 
打开 开发 者 工具 ， 捕 提 首 页 的 请 求 信息 ， 如 图 20-1 所 示 。 


X dl 


e © 


Filter 


Name 


Flements Console Sources Network Performance 
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Memory Application Security Audits 


EM Y Viw ss x Group by frame Preserve log Disable cache Ofiline Online 


Hide data URLs All | XHR [3 CSS Img Media Font Doc WS Manifest Other 


X | Headers | Preview Response Cookies Timing 


topinit.js?version-b81eb8e02b10d728 = | * General 
base.js?versionzb81eb8e02b10d728 Request URL: https: //login.sina.com.cn/sso/prelogin.php?entrysweibo&cal 


_| app.975dfbba,js 

|. | index js?version- b81eb8e02b10d728 

|. | topjs?version - düb15edc6ddab 724 
index js?version- bB1ebBe02b10d728 

. | indexjs?version-b81eb8e02b10d728 — 


ologin.js(v1.4.19)& -15809159054634 
Request Method: GET 

Status Code: && 268 OK 

Remote Address: 123.125.105,243:443 
Referrer Policy: no-referrer -when- downgrade 


* Response Headers (10) 


prelogin.php?entry- "T mm ick- sinaSSOControlle...t Y Request Headers view s 


| seed-min.js 
| login,js 
aplus v2.45 
| ??client js.abc js atp.js?t- 2013052 
uac js 
pt2js? 2419210 
index js?versionz b81eb8e02b10d728 
??eyent-min.js.event/dom/base-min.|s,event/base-mi...e-, ™ 


48 / 176 requests | 4.6 KB / 352 KB transferred | Finish: 4.1 m... 


Accept */* 


Accept-Encoding: gzip, deflate, br 


Accept-Language: zh-CNH,zh;qz8.9 


Connection: keep-alive 
Cookie: SINAGLOBALz157.61.158.247 1509112663.195312; Apachez157.61.158. 


De5AWGbho9bc FgSKJbB BFA1AWmSWAGn-VgaKLbQCTF1Y3jREk.; SUB= 2AkMur9j5dcPj 
AHufTw..; 5UBP-0033Wr5XqPxfM72wWs9jqgMF55529PoDoWWbmHe4oBmialVBgo4057 1 


图 20-1 


JavaScript 脚本 信息 。 


析 ， 


该 请 求 信 


Host: login.sina.com.cn 
Referer: http: / /weibo.com/ 
User-Agent: Mozilla/5.6 (Windows NT 106.0; WOW64) AppleWebKit/537.36 (KH 


Y Query String Parameters 


在 开发 者 工具 里 分 别 查看 XHR、JS 和 Doe 标签 的 请 求 信 息 : 
(1) Doc 标签 有 4 个 请 求 信 息 ， 请 求 信 息 的 啊 应 内 容 都 是 HIML， 主 要 是 网 页 的 布局 和 一 些 


(2) XHR 标签 有 一 个 POST 的 请 求 信 息 ， 对 该 信息 的 请 求 链 接 、 请 求 参 数 和 啊 应 内 容 进 行 分 
恩 与 登录 信息 没有 太 大 关联 。 

(3) JS 标签 有 多 个 请 求 信 息 ， 大 多 数 请 求 都 是 JavaScript 脚本 内 容 ， 查 看 每 一 个 请 求 信 息 ， 
发 现 其 中 一 个 请 求 较为 特殊 ， 如 图 20-2 所 示 。 


[Filter | C) Hide data URLs All | XHR 加 Css Img Media Font 


Name 


|. | index.js?versionzb81eb8e02b10d728 
|. | index js?versionz b81eb8e02b10d728 


| | prelogin.php?entry-weibo&callback-: 


| | seed-min js 


~ | login;js 


| | aplus v2 js 
_ | ??dlientjs,abc.js,atp.js?t- 20130528 


| | uacjs 
|| pt2js? 2419210 
| | index.js?versionz b81eb8e02b10d728 


图 20-2 


ali. 


xX Headers Preview| Response Cookies T 


Y sinaSSOController.preloginCallBack( 
exectime: 12 
nonce: "I7TY35" 
pcid: "tc-e4d1320488f01d12eee4c9a 
pubkey: "EB2A38568661887FA180BDDB95 
retcode: © 
rsakv: "1330428213" 
servertime: 1509159052 
uid: "1777129223" 
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Filter Hide data URLs All | XHR Es] CSS Img Media Font Doc WS Manifest Otl 


Name * | Headers | Preview Response Cookies Timing 
| indexjs?version-b81eb8e02b10d728 ^| Y General 
index js?version- b81eb8e02b104d728 Request URL: https: //login.sina.com.cn/sso/prelogin.php: 
= & -1509159854634 
Request Method: GET 
-| seed-minjs Status Code: @ 200 OK 
login.js Remote Address: 123.125.105.243:443 
| aplus v2.js Referrer Policy: no-referrer-when-downgrade 


| prelogin.php?entry-weibo8&callback-: 


??client js abc js atp js?t- 20130528 > Response Headers (10) 
uac.js * Request Headers (8) 


pt2 js? 419210 Y Query String Parameters view source view URL encoded 
entry: weibo 

callback: sinassocontroller.prelogincallBack 
?*?event-min.js,event/dom/base-min.js. su: 

index.js version - b8Teb8eU02b10d728 rsakt: mod 


suda.js?version-b81eb8e02b10d728 client: ssologin.js(v1.4.19) 
一 1 1509152054634 


index.js?version- b8TebBSe02b10d 728 


图 20-2 (5) 
根据 图 20-2 分 析 请 求 参 数 和 啊 应 内 容 ， 含 义 如 下 。 


e iq ^X su 代表 用 户 账号 ， 一 般 以 su 或 username 命名 。 

e 请 求 参数 1509159054634: 以 “150” 开 头 的 数字 大 多 数 是 时 间 截 ， 

e 请 求 参数 rsakt 和 响应 内 容 rsakv: 无 法 确定 这 两 个 参数 代表 的 含义 , 但 两 者 都 含有 rsa, rsa 
是 一 个 加 密 方 法 。 参 数值 可 能 经 过 加 密 处 理 。 

e 响应 内 容 pubkey: 中 文 翻 译 为 公共 密 钥 ， 从 这 个 参数 可 知 ， 某 些 数据 肯定 做 过 加 密 处 理 ， 
大 多 数 是 对 账 亏 、 黎 码 做 加 密 处 理 。 


通过 简单 分 析 ， 我 们 知道 在 用 户 登 录 之 前 会 触发 一 个 准备 登录 Cprelogin) 请 求 ， 访 请求 中 包 
舍 一 些 加 密 信 息 。 也 就 是 说 ,在 实现 登录 功能 之 前 ， 先 要 对 上 述 请 求 信 息 发 送 请 求 ， 获 取 其 啊 应 内 
容 的 加 密 信 息 后 ， 才 能 进行 下 一 步 用 户 登 录 。 实 现代 人 码 如 下 : 


import requests 
import time 
def get server datad(su)- 
# 构建 URL 
prelogin url = 'https://login.sina.com.cn/sso/prelogin.php? 
entry-weibo&callback-sinaSSOController.prelogin 
CallBack&su-$s&rsakt-mod&client-ssologin.js(vl. 
4.19)& —$5' $(su, str(int(time.time() * 1000))) 
pre data res = session.get(prelogin url, headers-headers , 
proxies-proxies) 
# 将 啊 应 内 容 转 换 为 字典 格式 
sever data — eval{pre dala res conteni decode (TuE Be 
replace("sinaSSOController.preloginCallBack", '')) 
rcturn sever data 
if name == "' main ™: 
# 构造 请 求 头 
agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/41.0' 
headers = I 
"UScCr-Agent agent 
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# 代理 TP， 防 止 同一 IP 登录 多 个 不 同 微 博 账号 


proxies = {} 

# 新 建 会 话 

session = requests.session() 
# 用 户 账 号 


Su = T34335423143" 
sever data — get server dala(su) 
现在 得 到 了 登录 的 加 密 信 息 ， 但 还 不 知道 具体 使 用 了 哪些 加 密 方 法 ， 我 们 知道 网 站 对 数据 加 
密 一 般 都 在 前 问 完 成 加 密 处 理 , 然后 将 加 密 的 数据 友 送 到 网 站 后 台 , 在 后 台 再 对 数据 解密 处 理 并 返 
回 啊 应 ， 这 样 的 方法 可 以 提高 数据 在 发 送 传输 时 的 安全 性 。 
根据 上 述 原 理 , 我 们 可 以 在 请 求 信息 中 找 出 具体 的 加 密 方 法 , 数据 加 密 主 要 以 JavaScript 实现 ， 
对 JS 标签 里 的 各 个 JS 文件 进行 分 析 ， 找 到 实现 加 蜜 功能 的 JS 文件 ， 如 图 20-3 所 示 。 


Hide data URLs All | XHR EE CSS Img Media Font Doc WS Manifest Other 


* | Headers | Preview Response Timing 


Y General 
Request URL: https://js1.t.sinajs.cn/t5/register/js/v6/pl/register/loginBox/index.js?version-49386822eb5a5fOb 
Request Method: GET 
Status Code: © 200 OK (from disk cache) 
Remote Address: 125.98.285.2:443 
Referrer Policy: no- referrer-when-downgrade 
* Response Headers (13) 
Y Request Headers 
A Provisional headers are shown 
Referer: https://weibo.com/ 
User-Agent: Mozilla/5.8 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.8.32802.94 Safari/537.36 
Y Query String Parameters jew source view URL encoded 
version; 49306022eb5a5fOb 


图 20-3” 微 博 登 录 加 密 方法 
通过 分 析 图 20-3 中 请 求 信 息 的 啊 应 内 容 (JavaScript 代码 )〉 可 以 发 现 : 


(1〉 用 户 账 号 主要 使 用 base64 方式 加 密 。 
(2) 密码 是 使 用 RSA 加 密 的 ， 加 密 密 钥 是 图 20-2 中 的 servertime, nonce 和 pubkey。 


根据 上 述 分 析 ， 我 们 得 知 账号 和 密码 使 用 了 不 同 的 加 密 方 式 ， 对 此 分 别 对 两 者 定义 不 同 的 函 
数 ， 代 码 如 下 : 


import urllib 

import base64 

import rsa 

import binascii 

# 账号 加 密 

def qet su (username): 
# 使 用 urllib.parse.quote plus 对 email 地 址 或 手机 号 码 的 特殊 符号 编码 处 理 
# 然后 使 用 base64 Jn 
username quote = urllib.parse.quote plus (username) 
username base64 = baseo4.b64encode(username quote.encode("utfí-8")) 
return username baseó64.decode("utf-8") 


# wn, servertime. nonce, pubkey 是 来 自 图 16-2 的 数据 
def get password (password, servertime, nonce, pubkey): 
rsaPublickey = int(pubkey, 16) 
# 创建 公 钥 
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key — rsa.PublicKey(rsaPublickey, 65537) 

# 拼接 明文 

message = strl(servertime) + '\t" + str(nonce) + 'Xm* + str (password) 
message c message- -encode (Tuti 307 

# p 

passwd — rsa.encryptimessadge, key) 

# 将 加 密 信息 转换 为 16 进 制 

passwd = binascii.b2a hex(passwd) 

return passwd 


rsa 模块 是 第 三 方 库 ， 可 使 用 pip install rsa 安装 。 


完成 用 户 的 账号 、 密 人 码 加 密 处 理 后 ， 最 后 一 步 束 是 实现 用 户 登 录 ， 在 浏 史 如 中 输入 账号 、 密 


码 ， 单 击 “ 登 录 ” 按 钮 ， 分 析 开 发 者 工具 捕捉 到 的 请 求 信 息 ， 如 图 20-4 所 示 。 


ame * | Headers | Preview Response Cookies Timing 


_| ajaxlagin.php?frameloginz 1&callback-parent.sinaSSOCo... 


Hide data URLs Al | WHR JS CSS Img Media Font ESA WS Manifest Other 


weiba.com entry: weibo 
login.jhtml?from »wbfast&style -wbfast&igoto -http263A... gateway: 1 
from: 


login.jhtml?trom -wbfast&style -wbfast&igoto -http9634... 
ogin.jhtml?from -wbfast&style -wbfast&goto p263 MT E 


bil html qrcode flag: false 


B login.php?cient-ssologin js(v1.4.19) | useticket: 1 


pagerefer: 

vsnf: 1 

SU: MTMB8MzUBMjMxNDM- 
service: miniblog 
servertime: 1589115484 
nonce: VP593x 


crossdomain2.php?actionzlogin&entry-weibo&r- https... 


pwencode: rsaz 

rsakv: 1330428213 

sp: 4ado433f3d1cff280786b2acoo80f412e392bd8b1f8a4930b8326d47a5b4e39b78dfca44c6db6295b2a1| 
eca2998884T4aB6b57aeg8desef4az24806fensdiobsdag8ee7b71d58e444513162e8b82985875175932c834h 
sr: 1280*7208 

encoding: UTF -号 

prelt: 333 


url: http://weibo.com/ajaxlogin.php?framelogin-1&callback-parent.sinaSSOController.feed 


returntype: META 


图 20-4 RER 


从 请 求 参数 可 知 ，su、sp、servertime、nonce 和 rsakv 是 动态 变化 的 ， 其 他 参数 都 是 固定 不 变 


的 。 而 servertime、nonce 和 rsakv 可 以 在 图 20-2 中 直接 获取 ,su 和 sp 分 别 是 加 蜜 后 的 账号 和 密码 。 
用 户 登 录 代 人 码 实现 如 下 : 


import time 

import base64 

import rsa 

import binascii 

import requests 

import re,urllib 

def login(username, password): 


# 攻取 servertime. nonce, rsakv. su4l sp 

su = get su (username) 

sever data = get server data (su) 

servertime = sever data["servertime"] 

nonce = sever dataf['nonce'!] 

rsakv = sever data["rsakw"] 

pubkey = sever data["pubkey"] 

sp = get password (password, servertime, nonce, pubkey) 


# 构建 请 求 参数 
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data = ( 
'entry': 'weibo', 
‘gaåateway : I7, 
ET C ta 
'savestate': 17 
useli kel: TI, 
'pagerefer': "http://login.sina.com.cn/sso/logout.php?entry- 
miniblog&r-http23A$2F22Fweibo.com$2Flogout.php$3Fbackurl", 
WEE eS pe 
Ec e SH; 
'service': 'miniblog', 
'servertime': servertime, 
'nonce': nonce, 
oe i TESA: 
UbSdEV a 
tsp Sp. 
"np T1360" L600 
"encoding'- 'UTF-8', 
ed 


'url': 'http://weibo.com/ajaxlogin.php?framelogin-1& 
callback- parent. sinaSSOController.feedBackUrlCallBack', 
'returntype': “META 
} 
LHP So 
url = 'htbp://login.sina.-com-cn/550/Tloqin.php*? 
clrent-ssoloqin. Js(vi.4.18)'" 
login page = session.post(url, data-data,proxies-proxies) 
print(login page.text) (D 
if name — " main ^": 
# 请 求 头 
agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/41.0' 
headers = { 
"Yser Agent: agent 


} 
# 代理 IP， 防 止 同一 IP 登录 多 个 不 同 微 博 账号 


proxies = {} 
# 新 建 会 话 
session = requests.session() 


Loqrn('T3435423113*, "xxxxxxxxxx') 


运行 上 述 代 码 ， 结 果 如 图 20-5 所 示 。 


250 | 实战 Python WAWE 


meta http-equiv- Content-Type” content= text/html; charset BE ./» 
Ctitle»SUEJSÍT UE title? 


Cscript charset-"utf-8" sre” i, 530. 81m. Cc / ias/ssologin. ji »V/script» 
&/ head? 

tbody? 

正在 登录 . .. 


&script» 


try[sinaSSO0Controller. setCrozsDomainUrllist(|"retcode" :0, "arrURL" - [^https: V passport. 97973. coms/zsas/crossdomain"action-login&savestate-15407098 


catch(e) 1 

Var m3E = e. message; 

var img = new Image(): 

var type = 1; 

img. sre = 'https://logim. sina. com. cn/sso/debuglog? ' + msg + Rtype= + type; 
] try isinaSSOController. crossDomainAction( login , function() (location. replace https:/ 
catch(e) 1 

var msg = e. message; 

var img = new Image ; 

var type = 2: 


img. src = "https:/;login. sina. com. cn/sso/debuglog?mspg- + msg + Etype- + type: 


s! script? 
a body> 
</html> 


图 20-5 用户 登录 啊 应 内 容 一 


啊 应 内 容 是 一 个 HTML 格式 的 数据 ,在 HTML 内 容 中 无 法 得 知 是 否 登录 成 功 ， 因 为 在 数据 中 
无 法 获取 用 户 的 信息 。 但 细心 分 析 可 知 ，HIML 内 容 中 有 “location.replace”， 这 是 一 个 页 面 跳 转 
的 功能 ， 以 此 作为 突破 口 ， 可 以 竹 试 访问 跳 转 的 链接 ， 看 能 否 在 这 个 链接 中 获取 用 户 信 息 。 在 上 述 
代码 中 的 中 处 添加 以 下 代码 : 


login loop = (login page.content.decode ("GBK")) 


# 网 页 跳 转 URL， 获 取 用 户 信息 

pa = r'locatronX-repl3ceX([X "T1. *9 1 IN "Ty" 

loop url - re.findall(pa, login loop)[0] 

login index = session.qet (loop url, proxies-proxies) 
print(login index.text) (2) 


再 次 运行 代码 ， 结 果 如 图 20-6 和 图 20-7 所 示 。 


M E E " A d". d a i J A, =p ep ey E A a A * E. "m " E Y E a A T F EA T V AO 
(f"result':true, userinfo”: ['uniqueid : "1777129223", userid :null, "displayname" : null, "userdomain : ?wvr-5&lf-reg h) 


图 20-6 用户 登录 啊 应 内 容 二 


eo 9 EM ul | View 三 7 J Group by frame Preserve log Disable cache 
Filter | LJ Hide data URLs All | XHR JS CSS Img Media Font Be. 


Name |* Headers | Preview | Response Cookies Timing 
E : V dl PNTLY 一 IN 
E 531612012 | 44| $CONFIG[ 'islogin']-'1'; 
| $CONFIG[ 'oid' ]-'1777129223'; 
$CONFIG['page id']-'1005051777129223'; 
$CONFIG[ onick']-'xy-wj]'; 
$CONFIG[ 'skin']-'skines5'; 
$CONFIG[ 'background' ]|-'698ecd787gw1dwxi18gl908]'; 
1| $CONFIG[ 'scheme' ]|-'diyae3'; 
$CONFIG['colors type']-'8'; 
| $coNFIG[ 'uid']-'1777129223'; 
$CONFIG[ 'nick']-'xy-wj ; 


图 20-7 微 博 用 户 信息 
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图 20-7 是 在 网 页 上 查看 的 微 博 用 户 首页 信息 。 对 比 图 20-6 和 图 20-7， 图 20-6 说 明 用 户 已 成 
功 登录 ， 其 中 userinfo 代表 用 户 信 息 ， 观 察 userinfo 的 数据 ， 发 现 uniqueid 等 于 图 20-7 中 的 uid 和 
o1d， 因 此 根据 uniqueid 获取 用 户 首 页 信息 ， 在 上 述 代 码 的 握 处 加 入 以 下 代码 : 


uuid = login index.text 
uuid pa = 6c'"unidqnueid"-"(.*2)7* 
aiid res — re.findall[uurd pa, muid, re.) [95] 
# 根据 uniqueid 构建 微 博 首 页 的 URL 
web weibo url = "Hhttp://weibo.com/$s" % uuid res 
weibo page = session.get(web weibo url, proxies-proxies) 
response = weibo page.text 
person info = {} 
if 'SCONFIG' in response: 
person info['nick'] = response.splrE["SCONPFIG['nrck']-*") 
[I] .spitt("':") po] 
person info['watermark']-response.split("SCONFIG['watermark']- '") 
[1] -split (7; "y [01 
person info['location'] = response.split("S$CONFIG['location']- '") 
[I| piit; yo] 
person info['uid' ]=response.split ("$CONFIG["uid']="") [1] -split ("";") [0] 


person info['domain'] = response.split("$CONFIG['domain']- '") 
Me 001 
person info['oid'] = response.split("SCONFIG['oid']-'") 


[I1 -spErt (^ "75 p0j 
print( "登录 成 功 ， 你 的 用 户 名 为 : ' + person info['nick']) 


综合 上 述 已 实现 的 功能 ， 本 忆 完 整 的 代 人 码 如 下 : 


import requests 
import time 
import urllib 
import base64 
import rsa 
import binascii 
import re 
# 登录 前 准备 
def get server datdisul- 
# 构建 URL 
prelogin url = 'https://login.sina.com.cn/sso/prelogin.php? 
entry- weibo&callback-sinaSSOController. 
preloginCallBack&su-$s&rsakt-mod&client- 
ssologin.Js(vl.4.19)& —$5'" $i5u, strirnti 
time.time() * 1000))) 
pre data res = session.get(prelogin url, headers-headers, 
proxies-proxies) 
# 将 啊 应 内 容 转换 为 字典 格式 
sever data — ecvaltipre dta res content eocode( EE 87). 
replace("sinassOController.preloginCallBack", '"'")) 
return sever data 


# 账号 加 密 

def get SBHTUSOFPTamc) - 
# [SH urllib.parse.quote plus email 地 址 或 手机 号 码 的 特殊 符号 进行 编码 处 理 
# 然后 使 用 pase64 加 密 
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username quote = urllib.parse.quote plus(username) 
username baseod4 = base64.be4encode (username quote .encode (Tutf-8")}) 
return username baseó4.decode("utf-8") 


# WEE. servertime. nonce, pubkey 是 来 自 图 16-2 的 数据 
def get password (password, servertime, nonce, pubkey): 
rsaPublickey = int(pubkey, 16) 


# OBI 

key — rsa.PublicKey(rsaPublickey, 65537) 

# 拼接 明文 

message = strl(servertime) + '\t" + sbr(nonce) + 'Xn* + str (password) 
message =~- message- encede( CE 8") 

# 加 密 


passwd —rsa-encrypbimcssage key) 
# 将 加 密 信 息 转 换 为 16 进 制 

passwd = binascii.b2a hex(passwd) 
return passwd 


# 用 户 登 录 
def login(username, password): 
# 获取 servertime. nonce, rsakv. su4l sp 
su = get su(username) 
sever data -~ geL server dabatsu) 
servertime = sever data["servertime"] 
nonce = sever data['nonce!']| 
rsakv = sever data["rsakv"] 
pubkey — sever data["pubkey" | 
sp = get password(password, servertime, nonce, pubkey) 


# 构建 请 求 参数 


data = ( 
"entry': 'werbo", 
"ggacocwaw'z TLT, 
"From? —*. 
'savestate': 'J', 
"üsepickeb"'s TL 


'pagerefer': "http://login.sina.com.cn/sso/logout.php?entry- 
miniblog&r = http$3A£22F$2Fweibo.com$2Flogout.php$3Fbackurl", 

UWEBEItE WIS. 

US 2 SU, 

"Serwico': 'minrblog', 

'servertime': servertime, 

'nonce': nonce, 

"pwoencodoe': TESA; 

"pSakw': fSgkv, 

SE SP, 

tsr": 1366768". 

'encoding': 'UTF-8', 

^prpolp- rp. 

'url': 'http://weibo.com/ajaxlogin.php?framelogin-1l&callback- 

parent.sinaSSOController.feedBackUrlCallBack', 
"returntypc - 'MEIA' 


} 
# 用 户 登 录 
login url = 'http://login.sina.com.cn/sso/login.php? 
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client= ssologin.J]s(v1.4.18)' 
login page = session.post(login url, data-data) 
login loop = (login page.content.decode ("GBK")) 
# 网 页 跳 转 URL， 获 取 用 户 信息 
pa = r'rordtrony-replaceX[[xX*"TE- 2) [X "IA" 
loop url = re.findall(pa, login loop)[0] 


login index - session.get(loop url) 
uuid = login index.text 
muid pa — r'"unriqueid"-"[. ajn 
uuid res — ce.trindall[(uurd pa, uuid, re- 5S) [0] 
# 根据 uniqueid 构建 微 博 首 页 URL 
web weibo url = "http://weibo.com/$5" $ uuid res 
weibo page = session.get(web weibo url) 
response = weibo page.text 
person info = [1 
if 'SCONFIG' in response: 
person »snfo['nick'] = response.split ("$CONFIG['nick']5 '") 
[I]-spirt(7;"9 [9] 
person info['watermark'] = response.split("S$SCONFIG['watermark']- '") 
[i].spirt(""r7") [98] 
person :nfo['locatron'] = response.split("SCONETG['locatron']— '"j 
[I] .splirt("":^) po] 
person info['ürd'] — response.5plit["SCONEIG['nmid"*]— T} 
[I] -spirt(7;"95 [01 
person info['domain'] = response.split("$CONFIG['domain']- '") 
[1] pilice; 01 
person info['oid'] = response.split ("$CONFIG['"oid']=s '") 


[I| split; nyO] 
print (' 登录 成 功 ， 你 的 用 户 名 为 : ' + person info['nick']) 
else: 
print ("登录 失败 ') 


return person info 


Lf name i 
# 构造 请 求 头 
agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Friretox/Al1.0' 
headers = I 
TISEr Agent: agent 
} 
i [UH IP 
proxies = (] 
# 新 建 会 话 
session = requests.session() 


user info — ló6d1in('13435423143', " xxxxxx') 


20.3 ”用 户 登 录 ( 和 市 验证 码 ) 


20.2 市 已 实现 微 博 用 户 登 录 ， 如 果 要 实现 多 账号 批量 登录 ， 那 么 需要 使 用 代理 IP 实现 ， 否 则 
同一 个 卫 登录 多 个 账号 ， 账 号 很 容易 被 网 站 得 封 。 在 使 用 代理 IP 登录 微 博 时 ， 有 可 能 过 到 验证 公 
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验证 的 问题 ， 为 解决 验证 码 验 证 问题 ， 我 们 在 浏览 占 上 设置 代理 IP， 如 图 20-8 所 示 。 


自动 配置 
自动 配置 会 覆盖 手动 设置 ， 要 确 避 合 用 手动 设置 ， 请 禁用 自动 配置 。 


Google 云 打印 


自动 检测 设置 (A) 
无 障碍 [ | 佳 用 自动 配置 脚本 (5) 
t+ 
添加 无 障 琵 功能 
打开 Chrome p Ff OBERE 38 
为 LAN 使 用 代理 服务 器 (这 些 设 置 趟 用 于 拨号 或 VPN 连接 )(X) 
ER 


AHE): — (111.13:10927.— | 0m: (80 高 级 (C} 


关闭 Google Chromi [ | 对 于 本 地 地 址 和 不 使 用 已 理 服 务 器 (B) 


te FERAE REST, ( 


打开 代理 设置 — 


LAN 设置 不 应 用 到 拔 号 连接 ， 对 于 拨号 设置 ， 单 击 上 局 域 网 设置 山 
EN REH. 


[20-8 ”设置 代理 IP 
设置 代理 正之 后 ， 返 回 微 博 登录 界面 ， 可 以 看 到 登录 界面 出 现 验证 码 ， 如 图 20-9 所 示 。 


帐号 登录 


[1 13435423143 


ki 


请 输入 验证 双 | ARYA 


v) iH jp Rd 


图 20-9 ” 带 验证 码 微 博 登 录 


打开 开发 者 工具 ， 碍 看 请 求 信息 进行 分 析 ， 找 到 验证 码 图 片 请 求 信息 ， 如 图 20-10 所 示 。 


e data URLs All | XHR JS CSS (59 Media Font Doc WS Manifest Other 
x | Headers | Preview Response Cookies Timing 
Y General 
Request URL: https://login.sina.com.cn/cgi/pin. 
Request Method: GET 
Status Code: &i 2006 Ok 
Remote Address: 111.13.102.27:808 


php?r-45419889&s-oB&p- yf - 2969a3e6bb6b7e98a23b83be654419546ee7fc5 


Referrer Policy: no- referrer-when-downgrade 


* Response Headers (13) 

* Request Headers (8) 

Y Query String Parameters view source view URI 
r: 45419089 
5:0 
p: yf-2959a36bb6b7e90a23b83b05441954ee7fc5 


encoded 


图 20-10 图 片 验证 码 请 求 信 息 
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从 图 20-10 中 看 到 有 三 个 请 求 参数 : r 是 一 个 随机 数 ， 生 成 的 规律 不 固定 ; s 是 一 个 固定 数字 : 
p 是 一 个 不 可 知 的 数据 ， 需 要 找 出 该 数据 的 来 源 。 
再 分 析 登 录 前 的 加 密 信 息 (prelogin) 是否 也 发 生变 化 ， 如 图 20-11 所 示 。 


Filter | Hide data URLs EY) XHR JS CSS Img Media Font Doc WS Manifest Ot 


Name x Headers Preview | Response Cookies Timing 


um.json ; 
一 J Y sinassOController.preloginCallBack([Íretcode: 0, servertime: 15 


. | umjson exectime: 18 
|. | getDevicelnfo? cbl'unction-fn b is openlock: 8 


lm: 1 
if? 3. 
| | egif?UATrack||2398798018866. messo: mcm 
|. | push count json?trim null-18twi pcid: "yf-2969a36bb6b7e90a23b83b05441954ee7fc5" 
Bl prelogin.php?entry-weibo8callk pubkey: "EB2A38568661887FA180BDDB5CABDSF21C7BFD59C090CB2D245 
relcode; e 
| r=! = 三 
^| pin.php?r-454120898/s-08tp- y! neaky- "$320" 
_ | push count.json?trim null-18wi servertime: 1569181691 
e.gif?UATrack||2398798018866.3. showpin: 1 
-— smsurl: "https://login.sina.com.cn/sso/msglogin?entry-weibo& 


| login.php?clientzssologin.js(v1.4 


图 20-11 iU uERBIT] SE 3 fo E 


对 比 图 20-11 与 图 20-2, RI Ss UE ES SER BU AIR d ds P HIA I showpin. is openlock 
和 lm; 再 与 图 20-10 对 比 ， 发 现 图 20-11 中 pcid 的 数据 与 图 20-10 中 p 参数 的 值 相同 。 
结合 上 述 分 析 : 


(1) 访问 加 密 人 信息， 根据 返 回 内 容 进 行 判断 ， 如 果 存 在 showpin. is openlock 和 Im 数据 ， 就 
说 明 当前 登录 需要 验证 码 识别 。 

(2) 如 果 存 在 验证 码 ， 就 先 下 载 验 证 码 图 片 ， 再 进行 下 一 步 的 用 户 登 录 ; 否则 直接 执行 20.2 
节 的 代码 。 


下 载 验证 但 图 片 的 代码 如 下 : 


def get img (pcid): 
url = 'https://login.sina.com.cn/cgi/pin.php?r-$s&s-0&p-$s' 
$(str(math.floor(random.random() * 100000000)),pcid) 
resp = session.get (url) 
verify code path = '$s.png' 5 (str(int(time.time() * 1000))) 
f = open(verify code path, 'wb') 
f.write(resp.content) 
ff.closert) 
return verify code path 


在 函数 get imgOrP, Z% pcid 由 加 密 信 息 的 pcid 传递 ， 最 后 函数 返回 的 是 图 片 的 相对 路 径 。 
完成 验证 码 下 载 后 ， 接 着 分 析 带 验证 码 的 登录 请 求 ， 如 图 20-12 所 示 。 

从 图 20-12 和 图 20-4 的 请 求 参数 对 比 得 出 ， 图 20-12 的 请 求 参数 多 了 pcid 和 door。Ppcid 是 来 
目 加 密 信 息 里 的 啊 应 数据 ，door 是 验证 码 图 片 内 容 。 

根据 上 述 分 析 ， 总 结 如 下 : 


CIO 如 果 市 有 验证 个 ， 加 密 信息 的 啊 应 内 容 束 含有 showpin. is openlock 和 lm 数据 。 
(2) 判断 加 密 信息 的 响应 内 容 是 否 需要 下 载 验证 码 图 片 。 
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G) 下 载 图 片 验证 码 后 ， 需 要 对 验证 码 进行 识别 。 
(4) 在 用 户 登 录 请 求 中 ， 带 验证 码 的 登录 需要 添加 参数 pcid 和 door. 


Name Headers Preview Response Cookies Timing 


getDevicelnfo? cbFunction- ilk 
= = savestate: 7 
e.gif?UATrack||23987980188 qrcode flag: false 
push count.json?trim null-. useticket: 1 


prelogin.php?entry2weibo& pagerefer: 


pin.php?rz454190898/s-08 dandis 

push count.json?trim null-. vsnf: 1 
e.gif?UATrack||23987980188 su: MTMOMzUOMjMXNDM- 
service: miniblog 
servertime: 1509181723 


nonce: H9MW3U 
pin.php?rz927471 0185-08 pwencode: Fsa2 


| | login.php?client=ssologin.js 


ajaxlogin.php?framelogin=1 


push count.json?trim null-. rsakv: 1330428213 

sp: 507adca2ce645fd22abfA36d040a0f 306b86642654872596a507071 
9637e12c1d80345fa01cc59cAec4cca9b795d618d49c477aa79713d8 
sr: 1280*720 

push count.json?trim null-. encoding: UTF-8 


push count.json?trim null-. 


push count.json?trim null-. 


| push count.json?trim null-. prelt: 85 
url: http://weibo.com/ajaxlogin.php?framelogin-1&callback- 


学 


180 requests | 3.2 MB transferre... returntype: META 


图 20-12” 带 验证 码 用 户 登 录 


在 上 和 面 的 分 析 要 点 中 ， 目 前 还 没 解决 验证 码 识 别 的 问题 。12.3 市 讲述 了 第 三 方 平台 如 何 识别 
验证 码 ， 因 此 本 项 目 使 用 第 三 方 平台 提供 的 API 解决 验证 码 识 别 问题 ， 将 API 代码 命名 并 保存 在 
文件 weibo verify code.py 中 。 在 20.2 节 的 代码 中 加 入 验证 码 人 处理 功能 ， 代 人 码 如 下 : 


import requests 

import time 

import urllib 

import base64 

import rsa 

import binascii 

import re 

# 接 入 第 三 方 API 识别 验证 码 


from weibo verify code import code verificate 


# 登录 前 准备 
der get server dataisur- 
# 构建 URL 
prelogin url = 'https://login.sina.com.cn/sso/prelogin.php?entry= 


weibo&callback-sinaSSOController.preloginCallBack& 
su-$s&rsakt-mod&client-ssologin.js(vl1.4.19)& -$s' 
$(su, str(int(time.tuime() * 1000))) 

pre data res = session.get(prelogin url, headers-headers, 
proxies-proxies) 

# 将 啊 应 内 容 转换 为 字典 格式 

Sewer data — evalfpre data ros coHtenrt.doecodc( El 8 

replace("sinaSSOController.preloginCallBack", "'')) 
return sever data 


# 账号 加 密 
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def get su (username): 
# 使 用 urllib.parse.quote plus 对 email 地 址 或 手机 号 码 的 特殊 符号 进行 编码 处 理 
# 然后 使 用 base64 加 密 
username quote = urllib.parse.quote plus(username) 
username baseb4 = base64.be4encode (username quote.encode["utt-8")) 
return username baseó4.decode("utf-8") 


# 密码 加 密 ，servertime、nonce、pubkey 是 来 自 图 16-2 的 数据 
def get password(password, servertime, nonce, pubkey): 
rsaPublickey = int(pubkey, 16) 


# 创建 公 钥 

key — rsa.PublicKey(rsaPublickey, 65537) 

# 拼接 明文 

message = strl(servertime) + 'Xb' + str{(lnonce) + '\n' + str (password) 
message - message encode (THEE 87) 

# 加 密 


passwd — rsa.encrypb(méssadge. key) 
# 将 加 密 信 息 转 换 为 16 进 制 

passwd = binascii.b2a hex(passwd) 
return passwd 


# 下 载 验 证 人 码 图 片 
det get img (pcid): 


url =- 'https://login.sina.com.cn/cgi/pin.php?r-$s&s-O0&p-$s' 
$(str(math.floor(random.random() * 100000000)),pcid) 
resp = session.get (url) 


verify code path = '$5s.png' $ (str(int(time.time() * 1000))) 
f = open(verify code path, 'wb') 

f.write(resp.content) 

[.closert) 

return verify code path 


# 用 户 登 录 
def login (username, password): 
# 获取 servertime、nonce、rsakv、su 和 sp 
su = get su(username) 
sever data = get server data (su) 
servertime = sever data["servertime"] 
nonce = sever data['nonce!']| 
rsakv = sever data["rsakv"] 
pubkcy — sever datal pubkey | 
sp = get password(password, servertime, nonce, pubkey) 


# 构建 请 求 参数 


data = ( 
'entry': 'weibo', 
"gateway : r, 
"From 7 t 
"SavesLate': rr, 
"useErckeb'- TIT 


'pagerefer': "http://login.sina.com.cn/sso/logout.php?entry- 
miniblog&r-http23A$2F22Fweibo.com$2Flogout.php$3Fbackurl", 

SNI E NES. 

EH s Su, 

"Service'- 'miniblog', 
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'servertime': servertime, 

'nonce': nonce, 

tpwencode “Toa 

UrSgkw t rDÉoukv, 

SE S SB. 

"ar'e TPSBB*TI6S 

"encpdanmg'- 'UTP-8*. 

让 

'url': 'http://welbo.com/ajaxlogin.php?framelogin=l&callback= 
parent.sinaSSOController.feedBackUrlCallBack', 

"returntype c 'META' 


} 
# 判断 是 人 否 存 在 验证 但 
if 'showpin' in sever datba.keyst): 
# 添加 请 求 参 数 
pcid = sever data['pcid'] 
data|'pcid'] = perd 
# 下 载 验证 码 图 片 
verify code path - get img (pcid) 
# 第 三 方 平台 识别 验证 码 
verify code = code verificate(yundama username, yundama password, 
verify code path) 
print(verify code) 
data['door'] = verify code 


REF 

login url - 'http://login.sina.com.cn/sso/login.php?client- 
ssotoqum 1561-41-18) * 

login page = session.post(login url, data-data) 

login loop - (login page.content.decode ("GBK")) 

# 网 页 跳 转 URL， 获 取 用 户 信息 

pa = r'location\.replacey ([\ "| (.*2)}[\""]\)" 

loop url =- re.findallipa, login toon) [0] 


login index - session.get(loop url) 
uuid = login index.text 
uid ee he 7a): 
uuid res — Pe .rrndalli(usuid pa, uuid, re.) [0] 
# 根据 uniqueid 构建 微 博 首页 URL 
web weibo url = "http://weibo.com/$s" $ uuid res 
weibo page = session.get(web weibo url) 
response = weibo page.text 
person info = {} 
if 'SCONFIG' in response: 
person info['nick'] = response-split("SCONPIG|' nick'|]—- '") 
[1| :Spisci7*; yo 
person info['watermark'] = response.split("S$CONFIG['watermark']- '") 
[1] SB FECS S p] 
person info['location'] = response.split("S$CONFIG['location']- '") 
[E] -split {Troi 
person info['uird'] = response.split ("$CONFIG["uid']=s '") 
[Ii -SpixciT 7) 1081 
person info['domain'] = response.split("$CONFIG['domain']- '") 


[I| -spiitq"t-") £07 
person nrfop'ojd'] — response. spliti[i"sCONFIG[p ordi- **) 
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| 
print(' 登录 成 功 ， 你 的 用 户 名 为 : ”+ person info['nick']) 
else: 
print HKA) 


return person info 


if name ~man 
# 构造 请 求 头 
agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/41.0' 
headers = [( 
"Yser Agent agent 


} 
# 代理 IP 
proxies = { 
"http": "htbp://tE3.214.13. t: 80007" 
} 
E 新 建 会 话 
session — requests.session() 
# 第 三 方 平台 账号 密码 
yundama username = 'xxxxxx' 
yundama password — 'XXXXXX' 


user nro — login{" 134351231431, TEKAKI) 


程序 运行 结果 如 图 20-13 所 示 。 


F: \Python\python. exe FPF:/ 微 博 /weibo Software/weibo Software/weibo login. py 
uid: 53927 
balance: 1472 


cid: 1573126148, result: VMYMK 


VMYMK 
登陆 成 功 ， 你 的 用 户 名 为 : xy-wj 


Process finished with exit code 0 


图 20-13 ”和 带 验 证 码 的 微 博 用 户 登 录 结果 


20.4 ”关键 词 搜索 热门 微 博 


完成 用 户 登 录 后 ， 接 着 实现 关键 字 搜 索 热 门 微 博 ， 该 功能 可 以 让 我 们 及 时 擎 握 微 博 最 新 的 咨 
询 以 及 各 个 行业 的 动态 走 同 ， 巧 妙 运用 这 个 功能 等 于 拥有 了 微 博 平 台 的 大 数据 。 

EA vias PHAI https://s.weibo.com/, L “HEARRE HREF, WE 20-14 所 示 。 

每 次 搜索 不 同 的 关键 词 ， 网 页 都 会 重新 刷新 一 裔 ， 说 明 搜 索 结果 是 由 网 站 后 台 直 接生 成 。 由 
于 搜索 内 容 是 经 过 分 页 处 理 ， 因 此 把 页 数 切换 到 第 二 页 ， 然 后 在 Doc 标签 下 分 析 当 前 的 请 求 信息 ， 
如 图 20-15 所 示 。 
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& https:;//s.weibo.com/weibo?q-9623 T $& 2538962 3& Refer- index 


GS («tti 大 家 正在 搜 : Mate.. Q | (jeg Qum (S) LA C» egt 


) 微 博 搜索 — sr4des 


Etr 人 i 
KC1NT-. 4 o No 
E. 


(G i805E169.247, 1161£90.473 


e 


图 20-14 ”关键 词 搜 索 微 博 


v General 
Request URL: https://5s.weibo.com/weibo?q-*23X*E7€8EX8BXEBXSO0585XESXSDEAJEESXSBXSOX23&Refer-SWeibo box&page-2 
Request Method: GET 
Status Code: © 288 OK 
Remote Address: 49.7.36.132:443 


Referrer Policy: no-referrer-when-downgrade 


* Response Headers (7) 


* Request Headers (9) 

v Query String Parameters view source view URL encoded 
q: ST EGENES 
Refer: SWeibo box 
page: 2 


图 20-15 ”关键 词 搜索 微 博 的 请 求 信 息 
根据 图 20-15 上 的 请 求 信息 ， 该 请 求 的 请 求 参 数 分 析 如 下 : 
e URL 含有 “9%23? 等 字符 ,说 明 URL 对 中 文 进 行 了 编码 处 理 , 编码 处 理由 urllib.parse.quoteO 
e Refer 的 参数 值 是 固定 不 变 的 。 
e page 代表 页 数 ， 一 个 关键 词 最 多 返回 50 页 内 容 。 
分 析 访 请 求 的 啊 应 内 容 ， 友 现 每 一 条 微 博 信息 都 存放 在 <div class="content" node-type="like">， 


在 此 标签 内 ,可 以 分 别 找 出 微 博 用 户 、 微 博 内 容 、 图 片 文件 和 视频 文件 的 所 在 位 置 ， 由 于 网 页 内 容 
较 多 ， 本 书 只 列 出 部 分 内 容 的 所 在 位 置 ， 如 图 20-16 所 示 。 
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"content" node-type="like"> 
lv eee info"» 
«div class-"menu s-fr"» 
«a hrefz"javascript:void(8);" action-typesz"fl Jn» ji classs"wbicon"»c«/i»«/a» 
«ul node-types"fl menu right" style-"display:none;"» 
4li»«a hrefz"javascript:void(8);" Mio Re ME dias mn EXFL a RM 


mR 


uda-data="key=t 
/i»«/a» 


/div» 


«p classsz"txt" node-types"feed list content" nick-names-"MES-[E2"» 
* hrefs"http://s.weilbo.com/weibo/ 52 3mSE GEB 1556 SE SB SAASBESAGESASZ2USEBSOSSOCSESROSRASEESSOCEASSEDAGOAGSS2S" target-" blank" 


«p classs"txt" node-typesz"feed list content full" nick-namesz"MEP-2[EP" style="display: none">» 
«a hrefz"http://s.welbo.com/weibo/X23mXESXB1XEB86XE5X85XA5XE5XGFXA3Xx20XEBX83X9CXE5X38XSAOXE5XOCEASXE6x80X*X8B€23" targets" blank": 
« / p» 


is T i Al eee 
不 能 播放 视频 - -> WENE 
class="media media-video-a" node-type="feed_list_media_prew"> 
linkcard 不 能 播放 视频 - -» 
media media-video-a" node-types"feed list media disp" styles"display:none;"»«/div» -- 
25 vicies ce pa eo 视频 文件 地 址 
thumbnail" styles"height:auto;min-height:281px;"» 
"javascript:void(8);" classz"WB video h5" node-typez"fl h5 video" [action-dataz"types-zfeedvideo&objectidsz1034:4288343539515021&key 544; 
node-types"fl h5 video pre"» 
«img srce"https://wx1.sinaimg.cn/large/6f7 a4ldllylfwib8Gufspnj28ruOfowfs.jpg" altz"" stylez"display:block;height: 281px;"» 


20-16 $8 p E 
分 析 网 页 的 HTML 结构 得 知 ， 微 博 用 户 、 微 博 内 容 、 图 片 文件 和 视频 文件 的 HTMI. 结构 说 明 


e 微 博 用 户 在 <a> 标 
H pe 


属性 class='"name'" 。 

TA iTr EAA 2 ， 属 性 class="txt"。 有 时 候 <p> 标 签 下 

含有 两 个 <a> 标 签 ， 这 是 因为 微 博 内 容 过 长 ， "A “展开 全 文 ”才能 看 到 完整 的 内 容 ， 
而 第 二 个 <a> 标 签 就 是 完整 的 微 博 内 容 。 

e 图 片 文件 在 <img> 标 签 ， 该 标签 的 上 级 标签 是 <ul> 标 签 ， 属 性 class='"m3"。 

@ 视频 文件 在 <a> 标 签 ， 属 性 class='"WB video hsS"， 文 件 路 径 在 属性 action-data, 


家 合 上 述 ， 可 以 确定 采集 数据 的 具体 位 置 ， 实 现代 码 如 下 : 


from bs4 import BeautifulSoup 

import urllib 

import csv 

import requests 

import time 

import datetime 

from concurrent.futures import ThreadPoolExecutor 


A 
AE. 
Av 

AE 


. d 
RÆ 


# LFE ERA SA 
der thread video(gét video value, video path): 
if get video value: 
# 提取 视频 文件 的 URL 地 址 
url = get video value['action-data']. 
split('video src-')[1].split('&cover img-')[0] 
url = "'http:' + urliib.parse.unquote(url) 


try: 
remp value — reguests. get (uril) 
video = open('video/' + video path, 'wb') 


video.write (temp value.content) 
video.close() 
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except: 
pass 


# 多 线程 息 取 图 片 

def thread img(k, img path): 
ro = renHcsLus-dgeti EEp 4 Kl spPc-19 
img = open('image/' + img path, 'wb') 
img.write(r.content) 
img.close() 


# 采集 微 博 
def collect(keyword, session, pagenumber-1): 
E RIEF IE 
now = datetime.datetime.now ().strftime('%$Y-%m-$d')} 
# 构建 URL 
keyword = urllib.parse.quote(keyword) 
url — 'https://s.weibo.com/weibo?q-' + keyword t 
'&Refer = SWeibo bo&page-$s' $ (str(pagenumber)) 
r — session.get (url) 


# 清洗 多 余 的 符号 

get value - r.text.replace('M/', '/') 

soup = BeautifulSoup(get value, 'html511ib') 
# 定位 用 户 信息 


get info = soup.find all{('div', class ="content") 


for 1 1n get info: 
# 微 博 内 容 与 用 户 信息 
get comment = 1.find all{'p', class -"'Ext*) 
if get comment: 
# 输出 全 部 文字 内 容 


if len(get comment) > 1: 


get comment = get comment[i-i1] 
else: 
get comment = get comment [0| 
comment = get comment.getText().strip() 
# 获取 用 户 信息 
get user = 1.find('a', class —'name") 
if get user: 
user name = get user.getText().strip(t) 
else: 


user name = "" 


img path list — '' 
# 获取 图 片 内 容 


get img value = i.find('ul', class -'m3') 
# 输出 图 片 
if get img value: 
get img value = get img value.find all('img') 


for k in get img value: 
img path = str(int(time.time() * 1000)) + '.jpg' 
img path list — img path list 4 img path + "yy 
pool = ThreadPoolExecutor (max workers-1l) 
pool.submit(thread img, k, img path) 
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video path - '' 
# 输出 视频 
get video value = 1.ftind('a', class —'WB video h5') 
iE get video value: 
pool = ThreadPoolExecutor (max workers-l) 


video path = str (int (time.time() * 1000)) + '.mp4' 
pool.submit(thread video, get video value, video path) 


# 用 于 生成 csv 

f = open('data.csv', 'a', newline-'', encoding-'gb18030"') 

writer = csv.writeritt) 

writer.writerow([user name,comment,img path list,video path,now]) 
°F .closef} 


整 段 代码 共 由 以 下 三 个 函数 组 成 。 

e thread imgO: 多 线程 下 载 图 片 。 

* thread video0: 多 线程 下 载 视频 。 

@ collect): 实现 微 博 采集 ， 函 数 参 数 keyword. session 和 pagenumber JAJA KRF. PA 
用 户 信息 的 会 话 对 象 和 采集 页 数 。 因 为 本 节 的 代码 存放 在 文件 weibo collectpy 中 ， 与 用 
户 登 录 的 代码 不 在 同一 个 文件 ， 所 以 需要 将 种 有 用 户 信息 的 会 话 对 象 传 递 给 该 函数 。 


函数 collectO 实 现 的 功能 依次 如 下 : 


e 对 函数 参数 keyword 执行 一 次 URL 编码 。 

e 构建 请 求 链接 并 发 送 请 求 ， 并 对 响应 内 容 进 行 清洗 处 理 。 

e 采集 微 博 用 户 信息 、 文 字 内 容 、 图 片 和 视频 。 图 片 和 视频 的 下 载 分 别 调用 函数 thread imgO 
和 thread video0)， 使 用 多 线程 下 载 文 件 ， 提 高 疏 取 速度 .。 


代码 运行 需要 结合 20.3 节 的 登录 功能 一 起 使 用 ， 将 本 市 代码 存放 在 文件 weibo collect.py FP; 
并 且 与 文件 weibo login.py 同一 目录 ， 当 前 目录 下 必须 有 文件 夹 image 和 video, EU FERK BRA 
和 视频 无 法 保存 。 修 改 weibo login.py 文件 ， 修 改 的 代码 如 下 : 


TE ae aa: 
# 构造 请 求 头 
agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/41.0" 
headers = { 
"User Agent- agent 


} 

A e 

proxies = {} 

# 新 建 会 话 

session = requests.session() 
# 第 三 方 平台 账号 、 密 码 

yundama username = “XXXXX 
yundama password = 'Xxxx' 


user info = login('13435423]43", xxx") 
# 导入 微 博 采集 功能 
from weibo collect import collect 


HERT 10 页 数据 
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for 1 xn range(10): 


ET 和 未 要 和 
20.5 发 布 微 博 


发 布 微 博 是 在 浏览 器 上 编辑 好 要 发 布 的 内 容 ， 然 后 单 击 “ 发 布 ” 按 钮 进行 发 布 。 微 博 中 有 很 
多 可 以 编辑 的 功能 ， 如 插入 表情 、 话 题 、 图 片 、 视 频 和 定时 发 送 等 。 其 中 ， 表 情 和 话题 可 以 归纳 为 
文字 内 容 。 本 节 主 要 实现 文字 内 容 、 图 片 和 定时 发 送 的 微 博 发 布 。 

在 浏览 右上 分 别 捕 捉 三 种 不 同上 友 布 方式 的 请 求 ， 如 图 20-17~ 图 20-19 所 示 。 


Name 


E Headers | Preview Response Cookies Timing 


| push count;json?trim nullz1&with dm .. | > General 
图 add?ajwvr=6&_md=1509371401985 | » Response Headers (12) 
E| 69ecd707jwBeg74uetmeuj20hsOhst9p.jpg | > Request Headers (12) 
= 了 | push count;json?trim nullz 1&with dm ... > Query String Parameters (2) 
| push countjson?trim null21&with dm ... Y Form Data view source view URL encoded 
location: v6 content home 
text: PythonlE fij; [5] 
appkey: 
style type: 1 
pic id: 
tid: 
pdetail: 
gif ids: 
rank: © 
rankid: 
module: stissue 
pub source: main 
pub type: dialog 
isPri: ð 


5 requests | 5.5 KB transferred t e 


图 20-17 微 博 发 布 一 一 文字 内 容 


* |Headers | Preview Response Cookies Timing 
ddrawr -6a md-1500371761503 TT 
s 69ecd707gylflüm795sc2j20qkObdjvgjpg | p Request Headers (12) 
&Secd/07gyflüm7 7zvnjj2164DezDul.jpg | > Query String Parameters (2) 
| push count. json?trim nullz 1&with dm .. | ¥ Form Data view source view URL encoded 
location: v6 content home 
text: Pythonlfe ha tH — E] Hr 
appkey: 
style type: 1 
pic id: &3ecd787gy1Tlem795sc2j280qke8bdjvg|esecd7e7gy1flem77zvnjj21648ezB8u1 
tid: 
pdetail: 
gif ids: 
rank: 6 
rankid: 
module: stissue 
pub source: main 
updata img num: 2 


pub type: dialog 
| isPri: 8 
4 requests | 12.5 KB transferred tg 


图 20-18” 微 博 发 布 一 一 文字 内 容 和 图 片 
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|* Headers | Preview Response Cookies Timing 
| 本 


B. add?ajwvr-6& rnd-1509371611825 
5| eaecAddOjw1ebh1rzlüztj2050050wea.jpng 


| > Request Headers (12) 
| + Query String Parameters (2) 


于 push countjson?trim nullz1&with dm ... dadi ena 


Y Form Data view source 
location: v6 content home 
text: Python lt Hi (f EIN Az EH 

appkey: 

style type: 1 

pic id: 69ecd707gy1f lam4tiwtuj28gqkobdjvg 
tid: 

pdetail: 

gif ids: 

rank: 8 

rankid: 

addtime: 2017-11-02 21:49 

module: stissue 

pub source: main 

updata img num: 1 

pub type: dialog 

isPri: © 

3 requests | 13.2 KB transferred t: 9 


图 20-19” 微 博 定 时 发 布 


通过 对 比 三 种 不 同 的 上 友 布 方式 的 请 求 可 以 及 现 ， 三 者 的 请 求 链接 一 致 ， 唯 一 的 区 别 在 于 请 求 
参数 的 差异 。 请 求 参 数 的 送 异 如 下 : 


CD 对 比 图 20-18 和 图 20-19 的 请 求 参数 ， 图 20-19 多 出 了 参数 updata img num， 该 参数 是 
所 发 布 的 图 片 的 数量 。 参 数 pic id 的 值 非 宇 ， 从 参数 名 分 析 可 知 ， 参 数 pic id 应 该 是 图 片 的 id. 

(2) 对 比 图 20-17 和 图 20-19 的 请 求 参 数 ， 图 20-19 多 出 了 参数 addtime, 该 参数 是 发 布 时 间 ; 
再 对 比 两 者 的 参数 pic id 和 updata img num, 图 20-18 比 图 20-19 多 一 张 图 片 ,图 20-18 的 参数 pic id 
将 每 张 图 片 之 间 用 “|” 隅 开 。 

(3) 参数 location 和 text 分 别 是 用 户 信息 和 友 布 的 文字 内 容 ， 其 他 参数 都 是 固定 不 变 的 。 

经 过 上 述 分 析 ， 现 在 无 法 确定 pic id 的 数据 来 源 ， 该 参数 如 果 是 图 片 的 1 4， 那么 在 添加 图 片 

的 时 候 ， 网 站 应 该 会 对 添加 的 图 片 生成 一 个 图 片 aa， 用 于 标识 图 片 。 为 了 验证 猜想 ， 我 们 捕捉 添 
加 图 片 时 所 触发 的 请 求 信息 ， 如 图 20-20 所 示 。 


Name X | Headers | Preview Response Cookies Timing 


Y 


沙 


E| TB? VIdAj2 DHBK ljy1... 


| | eif? UATrack||b4641... 
| TB2oLwfqwoOQMealjy... 


img default png?id... 


| | ico layer.png?id -20... 


loading.gif 


| | pic upload.phpzcbc... | 


| | upimgback.html? w... 


69ecd707gy1fn68ibs... 


| | push count.json'?tri... 
push count.json'?tri... 


| push count.json?tri... 


| | push count.json'?tri... 


push count .json'?tri... 


| | unread hint.json?so... 


push caount.json?tri... 
| push count.json?tri... 
| | push count,json'?tri... 
-| push count.json?tri... 
| | push count.json'?tri... 


push count.json'tri... 


Y General 
Request URL: https: //picupload.weibo.com/intertace/pic uplaad.php?cb-httpsk3AZ2F; 
2Fweibo.come2Faje2Fstatice2Fupimgback.html*3F wva3n5s26callbackA3DSTK ijax 15151 
7252469933&mime-imagex2F jpeg&data-base54Rurl-weibo.com*$2r531612012&markpos-1&log 
o-1&nick-Z48xy-wj&marks-e&app-miniblog&s-rdxt&pri-e&file source-1 
Request Methad: POST 
Status Code: © 302 Moved Temporarily 
Remote Address; 127.60.0,1:8888 
Referrer Policy: no-reterrer-when-downgrade 

+ Response Headers (8) 

t Request Headers (13) 

Y Query 5tring Parameters view source view URL encoded 

cb: https://weibo.com/aj/static/upimgback.html? wv-5&callback-STK ijax 151517252 

469933 

mime: image/jpeg 

data: baseg4 

url: weibo.com/531612012 

markpos: 1 

logo: 1 

nick: (xy -wj 

marks: à 

app: miniblog 

s: rdxt 

pri: 8 

file source: 1 


图 20-20 图片 添 加 信息 
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E 


ja 


从 图 20-20 的 请 求 信息 分 析 ， 请 求 链 接 是 GET 请 求 ， 请 求 方法 是 POST 请 求 ， 而 且 请 求 参数 
在 请 求 链接 上 ,说 明 该 请 求 POST 的 数据 不 是 请 求 参数 ， 而 是 POST 图 片 文件 ， 为 了 进一步 验证 
H. dE H8 HI Fiddler 分 析 该 请 求 信息 ， 如 图 20-21 所 示 。 


加 


ce 
—— 


POST https://pi oload 5ibo.com/interface/npi upload.php?"cbshttpss3AX2FX2Fweibo.com*2Faj«2Fstaties2Fupimgbze Itm133F wv% 
Host: picupload.weibo.com 

Connection: keep-alive 

Content-Length: 368765 

Cache-Control: max-ageso 

Origin: https://weibo.com 


Upgrade-Insecure-Requests: 1 

Content-Type: application/x-www-form-urlencoded 

User-Agent: Mozilla/5.0 (windows NT 10.0; WwOWw64) — n (n (KHTML, like Gecko) Chrome/63.0.3218.0 Safari/537.36 
Accept: text/html „application/xhtml+xmi ， application/xml; q=0.9 ,image/webp,image/apng,*/*;:320.8 

Referer: https: weibo. com/531612012/home 

Accept-Encoding: gzip, deflate, 
Accept-Language: zh-CN,zh;q-0.9 
Cookie: SINAGLOBAL-6464114471908.122.1513049031838; login sid t-bb7bes5365fsc7z0699b9daelabfeebcas5; cross origin proto-5SL; . s t 


b64 data-iVBORWOKGgOAAAANSUhEUgAAAU 4AAAd2CAYAAABSEC HD AAAAC XBIWXMAAAS TAAAL EwEAmpwY AAAK TWIDQIBQaG9O0D3NOD3AgSUNDIHByb2Z pDGUAAH j an 
2FblqwfwstQzeykfodSzspdQxzwpsJRNB2RVAXxXJIETGa3amptYGhz UFPIXx*2BWR2FSOunRxVudoiihg2TZVvpKtnAKAP4TOR lOdRZz y30C LXLPERD]l ef 381 aBTMz Er nqa 
2ZFDjcUyzAKfkPNFVvaxc 4I1f jNfshvs egDEBXdH3UQogGhloqoIMMATQQdJQtrALUFQKVNOIFS55BIVBaLkMz GekK Y q3nWDZWMMIRPWUKL emINhRWWCIDIaz*2BBNqJBnrD 
2By2Z2jS5al700FwWwqsbpcsros5z S9QxyguNuMz oC 7 1C KacbkYw9vnJ j Yb9WJNFIGAXQSNQqySMNOZ yvAWpCV2z 99$2BTO7nSBL42CGZ 4XFWAVXDT2SUu3QTtFGFDUAOKQGQOK 
2BagefuZ JASwf ex2FQ18nu*2F 8wW*$2BOOREUUDOS?75*2Fyu75TTBS10«2FkPzbVZDF*2Ftz cnoQFtwesBfTus*2Fa41xwni*2FaDVs*2FVOTNUUuGDpB86A*2Bys JuG9z nEbjc 
2FG6hHIak5J2mbLRj6zOccNjculy7HbfHavXXxIVk6jlElpfgseTPvegnr ewknqbAAJqIVtXqwR8UGOonc9F Se6x2BrFO0*2F j]31hcBXORLANU21K2kwKADQAMHOHyphb27 F 
2BZ2B23Ti7xS6yxOb8NaYvYnbJIsuNT4RVCiPZ5QJt3emYNiRTtIrIuz TeNLyOZpkvMnvc di UDaePOKr Jmx:2B4M2 XRL5p2wa8z g1YAn4psQs aacvhlukyurh? cz CSDmEMw 
2BJVaPSPZdpQlbcxPnaOpouenITpHxUFRPVcS54kjqBnugHa2pnqGcFKONOYmBTi1C7aLBjwwcZ 1H755d1bk(Q49K5 XC2Mrf29gotqv1DXFVJs2Fn71y26SCXI49pyNr 2N 
2FQGUKwqOIraSPrJtPrJyvsjVgHCV7 Bw7 YlBmIAG6dWL XIbFO1lErdt9doiS80COYph1EcmiioWyyody2xOk10gk3kur u9SQDR 3L 60R JVXu(QEnxr sGX2BCPOYRXjIS6552 
2BfPXX389rVy5MhHjt9xyC1l66aUzf!0A405BRURWGAAAAAAAAF jJ YIMCOAAAAAAAACHCAAAAAAAAAPDSAAAAAAAA(TQAAAAAAAAATCHARAAAAAACEOWAAAAAAABDLA 
2B9dZbaT87cCeKERKdHGSQAeIBO4w4sks2B3bt 2vPnj ZyWqop125$2 FatEns2F«2Fb3:2F «2 Fd*2F3N3x2FxNwi gr JMDdvXtXg4ODcr 1c6uz s IMviKflruHz55gKBgJ58 
2FBIq*2Fr79*€2BX2Fv6169*2F IKtRGSIZFIaHh4WIFAQO3t7XI4HIrFYmboTp793r Jli4aHh*2FX1315528006M j 430Z2dedut1sulOsbN240x20*€2Bm82m3bt 3mz Pgd 
2BNyVq197witbirkDQmQKfUb2SqnLhH73u9*28B2 vyvzu414nU5 VV1f rnXxfeSTvbcfHiRVmtVm32s1iXr75 IRGo2f 19TUaOfOnXI4HGpr a1MgENDVqi1cVCATM64yO jub 
2Fqwss*2FPCHP6z 4PgHA7XbLz 6Ge3L p1q9*28gz vrcrMhhFC4bEOL TAk Cb75 xKpRAKhVTC vZRoHhOd1RXuSUywPHf UHKS evVrz dw7evFn2mHr Xkc2F1chvfrsHhMe&luqi 
2B594Pb7565P4d2rNQasgvFIUAIHhTtsJNi4cSOAampoavuyuHKirrSozV1gsFmzfvhOXL lwwF eddKvRBL6z AbPJZLXR3d«*2BPSpUvo6eO1oeina4XDIIUaFQmHeRftcS9 
2BfksjUbz*2F*2Fvv43d*2F93aq8snoOFGSSepwzfvhixr IzR*2Fdvi xvYuxceNG] S14ceMGAGDZ smwnvOOS JOTz ecOVgwgoinQerRKNAXAYOVCOZ jEY18XqOk7btmiD 
2FrsiqibRdéelQCCgOkYvVMescFHGL9dSOanaGPdcLgebz YZCoaDy7 mnt ga2MCRdtqodhFHtEVEq92qd5g12Z3yDya5Qx7 9V6*x2F i OWiyosRYvdblczmoPj46q*2FL1 


图 20-21 图片 添加 信息 


从 图 20-21 看 到 ， 图 片上 传 POST 的 数据 是 b64 data， 该 数据 是 使 用 base64 对 图 片 的 字 节 流 
密 而 成 的 。 综 合 上 述 分 析 ， 微 博 发 布 需要 实现 两 部 分 功能 :第 一 是 实现 图 片上 传 ， 获 取 图 片 id; 
是 根据 条 件 判 断 选 择 微 博 发 布 方式 。 代 码 如 下 : 


import base64 
import time 
# 获 取 上 传 图 片 id 
def upload pic (session, watermark, nick, file 11st=[]) : 
pic id list = [] 
# 判 断 图 片 数量 是 否 在 1 一 9 之 间 
if lenl(lfile list}>0 and lent(file list}<10: 
for 1 in file list: 
url = 'https://picupload.weibo.com/interface/pic upload.php?cb- 
https23A$2F $2Fweibo.com$2Faj$2Fstatic$2Fupimgback. 
html%3F wvt3D5i26callback$3D5TK 1jax "+ str (int (time. 
time()*100000))-«'&mime-imageZ2Fjpeg&data-base64&url-weibo. 
com$2F'-« watermark-'&markpos-1&logo-1&nick-$40'-« 
nick-'&marks-0&app-miniblog' 
# 图片 以 字 节 数据 流 读 取 ， 然 后 以 base64 加 密 
files-['b64 data':base64.b64encode(open(i, "rb").read())] 
# 上 传 文件 
r — session.post(url, files-files) 
print (r.text) 
# 获取 图 片 id 
get picid = eval (r.text.split (</script>"') [1T1) | "data" | 
pics ipie 1 Il ma) 
pic id list.append(get picid) 
return prc rd list 


# 发 送 微 博 ，pic id list 是 上 传 图 片 rd 列表 


der send[sessToB,watermark, location, value, addLlime "t, pie Id Msi TI 
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# 构建 请 求 头 


headers = ('Referer':'http://weibo.com/'-«str(watermark)-'/home', 
'user-agent':'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/41.0'] 
# 构建 请 求 参数 


daba = ['locatron'- location, "text": value, "'apnpkey': 
tr Talyle tiwpete ET tere idt: m ed tt 
"Pdetal17: ''."'grr ds':''."taddtime':-addtime, 
"rank: "D". *rankid'- *'*', 'module'- "'srtissHe', 
"pub type'- 'dialoq', "pub sourcc'- 'main ', " t'- *D'3 
# 发 送 图 片 
IE pic id Pist: 
pic id="" 
for 1 in pic id list: 
pic id += i-'|" 
# 去 除 最 后 的 "| " 
IE me A Tl I 
pic id=pic id[0:len {pic 1d)-—1] 
data['updata img num'] = str(len(pic id list)) 
data['pic id'] = pic id 
# 构建 URL 
url-'https://www.weibo.com/aj/mblog/add? 
ajwvr-6&  rnd-$s' $(int(time.time()*1000)) 
r — session.post(url, data-data, headers-headers) 
1f r.status code--200: 
return True 
else: 
return False 


上 上述 是 本 节 实 现 的 功能 代码 ， 存 放 在 文件 weibo send.py 中 ， 整 段 代码 由 以 下 两 个 函数 组 成 。 
e upload pic: 实现 图 片上 传 。 函 数 参 数 session. watermark. nick 和 file list: 
> session 是 帝 有 用 户 登 录 状 态 的 会 话 对 象 。 
> watermark 和 nick 是 用 户 信息 。 
> file list 是 图 片 列表 ， 列 表 元 素 是 图 片 路 径 。 
e send): 实现 微 博 发 布 .台数 参数 有 session. watermark, location, value, addtime 和 pic id list: 
> session 是 带 有 用 户 登 录 状 态 的 会 话 对 瘟 ， 
> watermark 和 location 是 用 户 信息 。 
> value 和 addtime 是 发 布 内 容 和 发 布 时 间 。 
> pic id list 是 函数 upload picO 返 回 的 图 片 id 列表 。 
send0 功 能 说 明 如 下 : 
(1) 需 要 重新 设置 请 求 头 并 加 入 Referer 信 息 , 否则 会 导致 及 送 失败 ,因为 网 站 做 了 检测 Referer 
的 反 爬 虫 机 制 。 
(2) 请 求 参数 合并 了 三 种 不 同 的 发 布 方式 ,例如 只 发 布 文字 内 容 , 只 需 将 参数 pic id 和 addtime 
的 值 设 置 为 宇 即 可 。 奉 发 布 图 片 ,在 设置 pic id 的 参数 值 时 , 则 会 相应 地 创建 参数 updata img num. 
(3) 请 求 链 接 最 后 的 一 串 数字 是 当前 时 间 的 时 间 惟 再 乘 以 1000 后 取 整 所 得 。 


代码 与 164 节 的 运行 方式 一 样 ， 打 开 修 改 微 博 登 录 文 件 weibo loginpy， 代 码 如 下 : 
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Lf name cue o a MS 
# 构造 请 求 头 
agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gccko/ 20100101 Firctox/41.0"' 
headers = [( 
User Agents: a2genl 
} 
F AHE TP 
proxies = {} 
# 新 建 会 话 
session = requests.session() 
# 第 三 方 平 台 账 号 、 密 码 
yundama username = 'xxxx' 
yundama password = 'Xxxx' 


user info = login {"'"13435423143', " xxxx") 
# 导入 微 博 发 布 模块 

from weibo send import upload pic,send 
# 获取 用 户 信息 

watermark = user 1nfol watermark’| 

nick = uer inftol'nick'"] 

location = user info[|'locatron'] 

# 设置 图 片 列 表 

file 1ist=["aa.png', 'bb.png'l] 

# 获取 图 片 ia 列表 


pic id list = upload pic(session,watermark,nick,file list) 
# 发 布 微 博 
send(session, watermark, location, "Python €t", addtime-'', 


He iH lisi Pe 3g ErSE) 
20.6 X ik Hl P 


在 微 博 中 关注 用 户 有 两 种 方式 : 

d) 在 用 户 的 某 条 微 博 上 ， 在 将 鼠标 移 到 用 户头 像 时 所 弹出 的 窗口 中 单 击 “ 关 注 ”。 

(20 在 微 博 用 户 的 首页 单 击 “ 头 注 ”。 

两 种 关注 方式 的 请 求 链 接 是 一 样 的 ， 区 别 在 于 请 求 参数 的 差异 。 本 项 目 主要 实现 第 二 种 关注 
方式 ， 在 浏览 右上 捕 提 其 请 求 信息 ， 如 图 20-22 和 图 20-23 所 示 。 


(Filter _ |e 


Name 
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Hide data URLs BD | XHR JS CSS Img Media Font Doc WS 


| ets 
| X | Headers | Preview Response Cookies Timing 


|. | e gif? UATrack||239879801880606.328.15091... | * General 

— isle eei RU PP Response Headers (13) 

|. | ectvxinwen?refer flag- 1028035010 &is h... | > Request Headers (12) 

| ] a.gif?zV-2.2.4.20141125&Cl-sz:1280x720|.. | > Query String Parameters (2) 


xdht.gif?V6addattenlayer-addatten&. rnd... | Y Form Data View source view URL encodec 


5 requests | 7.4 KB transferred 


[20-22 ”关注 用 户 时 的 请 求 信息 


Name 

_| userwhite?ajwvr-6 

|. | proxy?api-http://contentreco... 
a followed?ajwvr-6&  rnd-150... 


3/ 167 requests | 1.8 KB / 510 KB... 


图 20-23 ”关注 用 户 时 的 响应 内 容 


uid: 2656274875 

objectid: 

f: 1 

extra: 

refer sort: 

refer flag: 1665056001 - 

location: page 100206 home 

oid: 2656274875 

wforce: 1 

nogroup: false 

fnick: 虫 视 新 闻 

refer lflag: 18280356108 

refer from: profile headerv6 
t: ð 


.* Headers Preview | Response Cookies Timing 


v (code: "100000", msg: "',.] 


code: 
v data: {fnick: "UH", relation: ffollowing: 1, fol 

fnick: “央视 新 闻 ” 

> group: [{gid: "3585489393574254", gname: "BRNE", 
recommend: [] 
refer_flag: "0880021882 " 
refer lflag: "180505809801 " 

relation: {following: 1, follow me: a8! 

msg: "^ 
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从 图 20-22 的 请 求 参 数 分 析 可 得 ， 参 数 ud、location、oid 和 fnick 是 被 关注 用 户 的 信息 ， 暂 时 
无 法 得 知 被 关注 用 户 信 息 的 来 源 。 其 余 的 参数 是 固定 不 变 的 。 
从 图 20-23 的 啊 应 内 容 分 析 可 得 ， 用 户 被 关注 成 功 之 后 ， 网 站 主要 返回 JSON 数据 。 观 察 数 据 
内 容 ， 可 从 “code” 的 值 来 判断 是 否 关 注 成 功 。 
进一步 核实 被 天 注 用 户 信 息 的 来 源 ， 以 “央视 新 闻 ” 的 微 博 为 例 ， 分 析 僵 找 浏 览 器 在 “央视 


新 闻 ” 的 微 博 首页 所 捕捉 的 请 求 信 息 ， 最 终 在 Doc 标签 找到 该 微 博 信息 ， 如 图 20-24 所 示 。 
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Hide data URLs All | XHR JS CSS Img Media Font (bes WS Manifest Othe 


Name * Headers | Preview | Response Cookies Timing 
Var LON 
53| $CONFIG[ lislogin ]=" 
1| $conFIG[ 'oid']-'2656274875'; 
|| $CONFIG[ page id'|2'1002062656274875'; 
i| $CONFIG[ 'onick' ]» ' 4: Brind ' $ 


cctvxinwen?refer flag 102803... 


/ $CONF IG[ 'skin ]=- diy ， 
i| $CONFIG[ background']z' '; 
&CONFIG['scheme']-' diyees'; 
colors _ type ]= 日 3 


"Wid" ]="1777129223"; 


nick ]= wy-wj ; 
'sex']s'm'; 
I watermark '] 531612012  ; 
'domain']-'160206'; 
"lang']s'zh-hk ; 
avatar large']-'//tva2.sinaimg.cn/crop.8.6.6406.640. 
timeDiff']s(new Date() 1599892139900); 


1| $CONFIG[ 'miyou']s'1' 
wu Tiu... 2 | 


sr | os 一 


1 / 147 requests | 287 KB / 499 K... 


图 20-24 WRAP IT) EEUU fei e 


从 图 20-22 和 图 20-24 的 数据 对 比 得 出 ， 20-22 的 参数 uid、location、oid 和 fnick 分 别 对 应 
图 20-24 的 oid. location. oid 和 onick。 
综合 上 述 分 析 ， 实 现代 人 码 如 下 : 


import time 
# 关注 微 博 ，session 是 用 户 登 录 后 的 会 话 ，follow url 是 关注 用 户 的 微 博 主页 
def follow weibo(session, follow url): 
# 构建 请 求 头 
agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Ceccko/20100101 Firecfox/Al.0' 
headers = { 
"User Agenti- agent, 
'Referer': follow url 


} 

tolblow infe — 1 Oid: ''. 'ounvtk!'» Tr "Toratrog'*: Tr] 
r — session.get(follow url) 

response — r.bext 


follow info['oid'] = response.split("S$CONFIG['oid']- '") 
Ai eplay] 
follow info['"onick'] = response.split ("$CONFIG['"onick']= **") 
[1] -split (7; y p 
Follow info['locatron'] = response.split("SCONPIG['locatron']— *"j 
[I]-5Spite[7*; 7) D0H 
# 关注 URL， 参 数 rnd 为 时 间 戳 
url = 'https://www.weibo.com/aj/f/followed? 
ajwvr-6&  rnd-' + str(int(time.time() * 1000)) 
data = ( 
"Uuxtd'c follow -nto[|'ord']; 
"objecbrd': ** 
Rprc vq 
texta: Tr 
"reler sort'- '', 
"rorer rlag' - '"T19085059DU1 <; 
"Iocatron'-: follow intfo['Iocation']l, 
"o1d'- Follow intol'ouxd'1, 
Cwrorpce'- CT 
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"noOGgrFoup'- "False 

"fnrck'- Follow info[|*'onick'l, 

Elen LetEag e me 

"refer prom "prerrie hoad rv 

ig uro T 
} 
r = session.post(url, data-data, headers-headers) 
# 判断 是 否 关 注 成 功 
if (r-j5on()['code']) == 100000 " : 

return (follow info['onick'] + 'XYEREJJ') 
else: 

return (follow info['onick'] t 'QEXWe') 


LXI RKR, FIEX weibo follow.py 中 ， 代 人 码 说 明 如 下 : 


(1) 图 数 follow weibo 的 参数 分 别 是 帘 有 用 户 信 息 的 会 话 对 象 和 被 天 注 的 微 博 首 幢 链 接 。 
(2) 重新 构建 请 求 次， 主要 在 及 送 天 注 用 户 的 请 求 时 所 使 用 。 

(3) 访问 被 关注 用 户 的 首页 ， 获 取 补 关注 用 户 的 信息 。 

(A) 对 获取 的 数据 构建 请 求 参 数 ， 实 现 发 送 用 户 天 注 请 求 。 


代码 与 20.5 节 的 运行 方式 一 样 ， 打 开 修 改 微 博 登 录 文件 weibo_login.py， 代 人 码 如 下 : 


TE name emo CHIENS 
# 构造 请 求 头 
agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 PFiretox/41.0' 
headers = I 
DD nent = agent 


} 

# 代理 IP 

proxies = (] 

# 新 建 会 话 

session = requests.session() 
# 第 三 方 平台 账号 、 密 码 

yundama username = “XXXXX 
yundama password = “XXXX 


user info — login" TL 34535342731453' T xxxx') 

# 导入 关注 用 户 模块 

from weibo follow import follow weibo 

# 关注 用 户 的 首页 链接 

follow url = 'https://weibo.com/renminwang' 
status = follow weibo(session, follow url) 
print (status) 


20.7 xi EMI VE 


ARHGEXESCHUSAMZUgBE: 点 赞 和 转 肥 评 论 。 两 者 实现 方式 和 20.6 市 的 实现 方式 大 臻 相同 ， 主 
要 在 对 方 的 微 埔 汉 页 实现 。 
在 浏览 右上 访问 条 微 博 的 用 尸 冯 页 , 以 有 疾 气 原创 漫画 梦 工 厂 ”为 例 (https://weibo.com/u17t)， 
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在 该 微 博 用 户 的 第 一 条 微 博 中 单 击 “ 点 赞 ” 


Fe] O Hide dots URLs Al 


Name 


x | Headers | Preview 


| | proxy?api-http://conte.. | Y General 
| | userwhite?ajwvr-6 


| | add?ajwvr26&  md-15... 


Response (Cookies 


Request URL: https: //weibo.com/aj/vo/like/add?ajwvr-6& — 
Request Method: POST 
Status Code: & 200 ok 


按钮 ， 开 发 者 工具 所 捕捉 的 请 求 信 息 如 图 20-25 所 示 。 


E 了 
Lo h FAN, 
hubs 5 C55 
Lco z 


Img Media Font Doc W5 Manifest 


Timing 


Remote Address: 123.125.104.197:443 
Referrer Policy: no-referrer-when-downgrade 


> Response Headers (13) 
> Request Headers (12) 
* Query String Parameters (2) 


Y Form Data 


view source 


view URL encoded 


location: page 108606 home 


version: mini 
qid: heart 
mid: 
loc: profile 
cuslike: 1 
te 


图 20-25 


从 图 20-26 fif] 
求 参 数 分 析 如 下 : 


(1) 参数 location 代表 被 点 赞 的 微 博 用 户 信 息 ， 数据 来 源 可 在 Doc 标签 返回 的 HTML 内 容 中 


找到 。 
(2) 参数 mid 数据 来 源 无 法 得 知 ， 
G) 其 余 参 数值 固定 不 变 。 


根据 参数 mid 的 变化 规律 得 知 ， 不 同 微 博 的 数据 会 随 之 变化 ， 那 么 
] 分 析 浏 览 


博 的 唯一 性 。 为 了 验证 猜想 是 否 正 确 ， 我 介 
mid 的 参数 值 ， 如 图 20-26 所 示 。 


| Filter 
Name x 


jJ ut?t?from-2myfollow al... | 198 
189| «script» 

var FM 
1| </script> 

12| «script5»fM 


14| «script»FM 
5| «script»FM 


7| «script»FM 


I| «script»FM. 
19| «script»FM. 
8| «script»FM 


21| «script»FM 


[^ 
l 
j 
: M1 
2| «script»FM. [ 
.view( k - ii i LT] 
4| «script»FM. 1 
.View(Í[" 
| 
2 
f 
1 
[" 
l 
r" 
E 
Ti 


23| «script»FM 
25| «script»FM 


26| «script»FM 


9| «script»FM 
iB|«scrint FM 


点 赞 不 同 的 微 博 ， 


Hide data URLs All | XHR JS CSS Img Media Font BE 


Headers | Preview | Response 


.view(1 
113| «script»FM. 
.View(("ns": 
.view(i"ns" 
5| «script»FM. 
.view(["ns": 


.Vilewi 
.view( 


.View( 
T| «script»FM.vi 

€script»FM. 
.Vvlewt 
a Yr | mä [aj i 


4171399478691072 


点 赞 微 博 请 求 信 息 


形 求 分 析 可 知 ， 请 求 链 接 的 _ md zé ATE [8] FÉ] EST [8] EXE LA. 1000 再 取 整 所 得 ， 


其 参数 值 随 之 变化 。 


z 


As HTAA DE UE SKIE E, 


3 WS Manifest Oti 


€——Ó 


Cookies Timing 


«script srcz"//is.t.sina]s.cn/t5/lang/jspage/mo/zh-hk.j5?versions9 


tfunction(a,b,c)[function hbW(b,c)fa.clear&&(bN-a.clear) 


"domid":"pl lib","js":"home/ js/pl/lib.js?version- 
,P1.common.webla , domid : pl c oaunon grea- 
"pl.top.index","domid" :"pl common top", 
:"page.pl. content. changel anguage. index" "doni 
vieu(["ns":"pl.base.index","domid":"pl common base" " "cs 
"page.pl.frame.index" "donid" > pic. Frame", "c 
view({{"ns": "pl. header. head. index” , domid":"Pl offic ial 
vieuw(["ns":"pl.nav. index i "domid" "Pl Core custTab Fr 

^ hs5 : , domid : plc main , css :[], "uw 
"pl. cont eni homeFeed, index", "domid" 加 
,thirdvip .liveskins。indexs "domid":" 
.Content.miniTab.index","domid":"Pl Core 
-content GGRTIEN.SADNÉ , CUNME : PL Core 
— án domid" Ls. Core 
.third.information.index" ,"domid" "Pl -Co 
.content.sliiderAndHover. index" i "domid" 
"domid":"Pl Core Pévideo 21","css":[" 
"domid :"Pl Core T8Customiricolumn — 
"Pl Third Inline 4A", 


vieu(Í["ns": 


view(1' 
L. "I 
view( 
view( 
view( 


""o- " qm, E m orm 
domi d" : css" :| 


图 20-26 ”查找 请 求 参 数 


Other 


rnd-1510068004469 


数 mid 可 能 用 于 标识 微 
最 终 在 Doc 下 找到 
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在 Doc 标签 返回 的 HTML 内 容 中 快速 查找 (Ctrl+F ) 参数 值 (4171399478691072) , Æ HTML 
里 的 JavaScript 代码 中 找到 参数 mid， 而 且 参 数 mid 是 重复 出 现 的 。 因 此 可 以 确定 ， 参 数 mid 可 在 
网 站 返回 的 HTML 中 找到 。 综 合 上 述 分 析 ， 实 现代 码 如 下 : 


import re 
import time 
#4 session 是 会 请 对 象 ，like uri 是 用 户 育 页 
def like weibo (session, like urli: 
# 获取 点 赞 用 户 的 前 16 条 微 博 
r = session.get (like url) 
t 3kHX location 
pocation — r-text.Sptrt("SCONPIG[|"l!ocab:on']-"'"Y[11]-sprrbE("";") [6] 
# IRH mid 
mid list ~ re.findall(r'mid-(.WMds)&name', r.text, re.S) 
# 构建 请 求 头 
agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/41.0' 
headers = [( 
"User Agent: gent, 
'Referer': like url 


} 
E 扣 先 功能， 默认 反 赞 第 一 条 微 博 


url = 'https://weibo.com/aj/v6/like/add?ajwvr-6&  rnd-' + 
(str(int(time.time() * 1000))) 
data = { 
'Iocation': Location, 
" uGroiomo "pon" 


'qid': "heart", 
'mid': mid list[0], 


"loc": *"nrotrle"'. 
'cusliker: =I, 
DUE Ed En 
} 
r = session.post(url, data-data, headers-headers) 
# 根据 返回 内 容 判 断 是 否 成 功 
if (FT.]sonl) [code']) == "7100000 7 : 
return ("AARI ') 
else: 


return (' 点 赞 失 败 ') 


点 赞 功能 定义 为 函数 like weibo): 函数 参数 session 是 会 话 对 象 ， like url 是 被 点 赞 用 户 的 首 
页 链接 。 函 数 实现 的 功能 如 下 : 


(1) 访问 被 点 赞 用 户 的 首页 链接 ， 获 取 用 户 的 location 信息 和 mid list. mid list 是 当前 用 户 
的 前 16 条 微 博 mid 组 成 的 列表 。 

(2) 构建 请 求 涉 ， 作 为 发 送 点 赞 请 求 的 请 求 涉 。 如 果 不 加 请 求 涉 ， 该 请 求 就 会 被 服务 占 视 为 
非法 请 求 ， 因 为 服务 器 会 对 请 求 头 的 Referer 进行 检查 ， 这 是 一 种 反 疏 虫 机 制 。 

(3) 上 友 送 点 赞 请 求 , 将 获取 的 location 和 mid list 作为 请 求 参 数 , mid. list RURE — MICA, 
即 默认 点 赞 第 一 条 微 博 。 

(40 针对 请 求 后 的 啊 应 内 容 判 断 是 否 点 赞成 功 。 
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完成 微 博 点 赞 功能 后 ， 接 着 完成 转发 评论 功能 ， 该 功能 的 实现 方式 和 点 赞 功能 类 似 。 以 上 述 
微 博 用 户 诈 页 为 例 ， 单 击 转发 该 用 户 的 第 一 条 微 博 ， 勾 选 “ 同 时 评论 ”选项 ， 在 开发 者 工具 看 到 该 
请 求 信 息 ， 如 图 20-27 所 示 。 


X | Headers | Preview Response Cookies Timing 


Y General 
Request URL: https: //weibo.com/a]/vo/mblog/forward?aj]wvr-e6&domain-18086068  rnd-1515255669358 
Request Method: POST 
Status Code: && 200 Ok 
Remote Address: 123.125.104.197:443 


Referrer Policy: no-referrer-when-downgrade 


= Response Headers (13) 

> Request Headers (12) 

Y Query String Parameters view source view URL encoded 
ajwvr: 6 
domain: 100606 
. rnd: 1515255669350 


Y Form Data view source view URL encoded 
pic src: 
pic id: 
appkey: 
mid: 4180208455805289 
style type: 1 
mark: 
reason: titin fi 
location: page 160606 home 
pdetail: 1006062011658674 
module: 
page module id: 
refer sort: 
is comment base: 1 
rank: © 
rankid: 
toe 


图 20-27 ”转发 评论 的 请 求 信 息 


从 请 求 信 息 分 析 可 得 ， 请 求 链接 的 md 是 当前 时 间 的 时 间 惟 乘 以 1000 再 取 整 所 得 ，domain 
是 被 转发 的 用 户 信息 ， 请 求 参 数 分 析 如 下 : 


(1) 参数 location 和 mid 与 点 赞 功 能 的 请 求 参 数 一 致 。 

(2) 参数 reason 是 转发 内 容 。 

(3) 参数 pdetail 无 法 确定 。 

(4) 参数 pic id 与 20.5 节 的 请 求 参 数 pic id 一 致 。 

(5) 参数 is comment base 代表 转发 时 的 “同时 评论 ”选项 。 
(60 其 余 参 数值 固定 不 变 。 


为 了 确定 参数 pdetail 的 数据 来 源 ， 僵 找 分 析 浏 览 如 所 捕 提 到 的 请 求 信息 ， 最 后 在 Doc 下 找到 
该 参数 的 数据 来 源 ， 访 参数 代表 被 转发 微 博 的 用 户 信 息 ， 如 图 20-28 所 示 。 
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Filter Hide data URLs All | XHR JS CSS Img Media Font [Be WS 


T n 


Name X Headers | Preview | Response Cookies Timing 

51| «script type-"text/javascript > 

52| var $CONFIG = {}; 

53| $CONFIG['islogin']-'1'; 

54| $CONFIG[ 'cid']|-'2011658674'; 

55| $CONFIG[ page id']-' 

56| $CONFIG[ 'onick']- HX (UE pie 9 L 

57 | $CONFIG[ 'skin']-'diy'; 

58| $CONFIG[ 'background' |= '77e779b21y1fikmgx29g12j21hcegehdt '; 

59| $CONFIG[ scheme |2'diy601'; 

68| $CONFIG[ 'colors type']-'686'; 

61| $CONFIG[ 'uid']-'1777129223'; 

62| $CONFIG[ 'nick']-2'xy-wj'; 

63| $CONFIG[ Sex |= m' ; 

64| $CONFIG[ 'watermark']-'531612012'; 

65| $CONFIG[ 'domain']-'100686'; 

66| $COMFIG['lang']-'zh-hk'; 
$CONFIG['avatar large']-'//tva2.sinaimg.cn/crop.0.90.640.640.180 
$CONFIG['timeDiff']-(new Date() - 1515255897000); 

69| $CONFIG[ 'servertime']-2'1515255897'; 

78| $CONFIG[ 'location']- 'page 100606 home '; 

71| $CONFIG[ 'pageid']-''; 

72| $coNFIG['title value']-' Hg em LC PRI 微 博 " ; 

73| $CONFIG[ ' $webim']-'1'; 

7/4 


| | ulrt?is all-1 


1/205requests .| Aa .* |1006062011658674 


综合 上 述 分 析 ， 实 现代 人 码 如 下 : 
# 转发 评论 微 博 


def forward weibo(session, forward url, reason): 
# 获取 点 赞 用 户 的 前 16 条 微 博 
r — session.get(forward url) 
t 3XkHX location 
location = r.text.split ("$CONFIG[ location" ]="") [1] .split("";")[0] 
page id r Coxt spliE( CONFIG page 1d- [l] SEE Yio 
domain = r.text.split ("$CONFIG[ domain" ]="")[1]-split("";") [0] 
# RE mid 
mid list — re.findall(í(r'mid-(.Nd4) &name', r.text, re.S) 
agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/41.0" 
headers = I 
"Yser Agent: agent, 
'Referer': forward url 


} 
# 转发 评论 


url = 'https://weibo.com/aj/v6/mblog/forward?ajwvr- 6&domain='+ domain 
r'&  rnd-' + (str(intítime.time() * 1000))) 
data = I 


Mp sre o ME 

"Dic a t s 
'appkey': '', 

"nd: mid iisti, 
GELE EYpe cpu 
Marere v 

'reason': reason, 
location: Iocatron, 


276 | 


实战 Python AEH 


'pdetail': page id, 
"modulet? t 

"page module id": '', 
reler SOPE I 1i, 

"is comment base’: '1', 


Fank.: "Wt. 
"rankict s t0. 
t or. ti 
} 
r = session.post(url, data-data, headers-headers) 
# 根据 返回 内 容 判 断 是 否 成 功 
if [r-j1son()['code']) == *TD00000'- 
return (' 转 发 成 功 ') 
else: 


return ("转发 失败 ') 


转发 评论 功能 定义 函数 forward weibo): 函数 参数 session 是 会 话 对 象 ; forward url 是 被 转发 
评论 用 户 的 首页 链接 ; reason 是 转发 的 评论 内 容 。 函 数 的 功能 逻辑 与 点 赞 功能 大 任 相 同 ， 此 处 不 做 
详细 讲解 。 

将 上 述 函 数 like weibo0 和 forward weibo0 保 存在 文件 weibo forward.py 中 ， 代 码 与 20.6 节 的 
运行 方式 一 样 ， 打 开 修 改 微 博 登 录 文 件 weibo login.py， 代 码 如 下 : 


了 二 


FF a 


mame = 
# 构造 请 求 头 
agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/A41.0" 
headers = I 
"Uscr-Agenr'- agent 


} 

# 代理 IP 

proxies = {} 

# 新 建 会 话 

session = requests.session() 
# 第 三 方 平台 账号 、 密 码 

yundama username = 'xxxx' 
yundama password - 'xxxx' 


user info = Jogin('13435423]143', *xxxx*) 
# 导入 点 赞 和 转发 评论 模块 


from weibo forward import forward weibo, like weibo 


url = *htbps://weibo.com/ulTt* 
Pon 

result — like weibo(session, url) 
print (result) 

# 转发 评论 


result = forward weibo (session, url, 'Python WEE") 
print (result) 
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20.8 Æ «56 ^2 


通过 本 章 的 学 习 ， 读 者 要 着重 掌 握 以 下 知识 点 : 

1. 项 目 实现 的 功能 

weibo login.py: 微 博 用 户 登 录 ， 同 时 也 是 程序 运行 文件 。 
weibo verify code.py: 第 三 方 平台 API， 实 现 验 证 码 识 别 。 
weibo collectpy: 根据 关键 字 搜 索 并 采集 热门 微 博 。 

weibo send.py: 发 布 微 博 。 

weibo follow.py: XAP. 

weibo forward.py: 418,5 ieit E. 

data.csv: 存储 采集 数据 。 

X fF3 video 和 image: 分别 存储 采集 的 视频 和 图 片 。 


. 做 博 登录 实现 难点 
C1) 账号 密码 的 加 密 处 理 。 加 密 方 法 一 般 在 JS 代码 中 能 直接 找到 ， 开 发 人 员 需 要 对 JS 代码 


解读 分 析 。 
(2 


M 


市 验证 码 登 录 和 普通 登录 的 区 别 ， 程 序 运 行 要 根据 当前 的 登录 模式 而 做 出 啊 应 的 登录 处 


I 


PE. 
(3) 用 户 登 录 成 功 后 获取 用 户 信 息 。 
(4) 第 三 方 平台 识别 验证 人 码 。 
3. 关键 子 搜索 热门 微 博 实 现 难 点 
(1) 关键 词 URL 编码 人 处理 ， 由 urllib.parse.quote() S: 91 . 
(2) 视频 文件 的 URL 地 址 分 析 以 及 提取 。 
(3) 多 线程 下 载 图 片 和 视频 。 
4. 发 布 微 博 实 现 难 点 
(1) 图 片上 传 分 析 以 及 功能 实现 。 
(2) 分 析 三 种 微 博 友 布 方式 的 异同 。 
9. 关注 用 户 、 点 赞 和 转发 评论 实现 难点 
(1) 分 析 请 求 参 数 舍 义 以 及 来 源 。 
(2) 构建 请 求 头 。 


实战 : 微 博 爬虫 软件 开 妇 


21.1 GUI 库 及 PyQt5 的 安装 与 配置 


在 本 项 目 中 , 主要 讲解 如 何 使 用 PyQts 实现 软件 开 友 , 首先 介绍 GUI EA PyQtS 安装 与 配置 。 


21.1.1 


GUI Æ 


Python 提供 了 多 个 图 形 开 发 界面 的 库 (GUIE) ， 利 用 的 GUI FE: 


Tkinter (也 叫 Tk 接口 ) 是 Tk 图 形 用 户 界 面 工具 包 标 准 的 Python 接口 。Tk 是 一 个 轻 量 级 的 跨 平 
台 图 形 用 户 界 面 (GUI) 开发 工具 ,可 以 运行 在 大 多 数 UNIX 平台 、Windows 系统 和 Mac 系统 中 。 
wxPython 是 Python 语言 的 一 套 优 秀 的 GUI 图 形 库 ,允许 Python 程序 员 很 方便 地 创建 
完整 的 、 功能 键 全 的 GUI 用 户 界 面 . wxPython 作为 优秀 的 跨 平台 GUI Æ, 以 wxWidgets 
的 Python 封装 和 Python 模块 的 方式 提供 给 用 户 。 

PyQt 是 Qt 库 的 Python 版 本 。PyQt3 支持 Qtl 到 Qt3，PyQt4 支持 Qt4, PyQt5 支持 Qt. 
PyQt 的 首次 发 布 是 在 1998 年 ， 当 时 叫 作 PyKDE， 因 为 那 时 SIP 和 PyQt 没有 分 开 。PyQt 
是 用 SIP 写 的 ， 提 供 GPL 版 和 商业 版 。 

Kivy 是 一 个 开源 工具 包 ， 是 能 够 使 用 相同 源 代码 创建 的 程序 ， 并 且 可 以 跨 平 台 运 行 。 它 主要 
关注 创新 型 用 户 界面 开发 ， 如 多 点 触摸 应 用 程序 。Kivy 还 提供 一 个 多 点 触摸 鼠标 模拟 器 。Kivy 
当前 支持 的 平台 包括 Linux, Windows, Mac 和 Android， 拥 有 能 够 处 理 动画 、 缓 存 、 手 势 和 
绘图 等 功能 。Kivy 还 内 置 许 多 用 户 界 面 控 件 ， 如 按钮 、 摄 影 机 、 表 格 、Slider 和 树 形 控件 等 。 
Flexx 是 一 个 纯 Python 工具 包 ， 用 来 创建 图 形 化 界面 应 用 程序 ， 使 用 Web 技术 进行 界面 的 演 
染 。 可 以 用 Flexx 来 创建 来 面 应 用 ， 同 时 也 可 以 导出 一 个 应 用 到 独立 的 HIML 文档 。 因 为 使 
用 纯 Python 开发 ， 所 以 Flexx 可 跨 平 台 使 用 。 只 需要 有 Python 和 浏览 器 ，Flexx 就 可 以 运行 。 
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PyQt5 是 一 套 绑 定 Qt5 的 应 用 程序 框架 ， 由 Python 语言 实现 , 己 经 有 超过 620 个 类 和 6000 个 
函数 与 方法 。PyQts 是 一 个 运行 在 所 有 主流 操作 系统 上 的 多 平台 组 件 ， 包 括 UNIX. Windows 和 
Mac OS. PyQt5 是 双重 许可 的 ， 开 发 者 可 以 选择 GPL 和 商业 许可 。 

PyQt5 可 以 使 用 pip 安装: 


pip install PyQt5 


完成 PyQtS 的 安装 后 ， 接 看 安装 图 形 界 面 的 开 友 工具 ， 这 是 能 快速 开 友 图 形 界 面 的 辅助 工具 。 
如 朵 对 PyQts 比较 见 悉 ， 可 以 使 用 Python 纯 代 码 开 发 图 形 和 界面 。 

开发 工具 有 Qt Creator 与 Qt Designer， 两 者 都 能 实现 图 形 界 面 的 开 友 。 其 中 ， 后 者 是 前 者 一 部 
TIRER RIS" o Qt Creator 包括 项 目 生 成 向 导 、 高 级 的 C++ 代码 编辑 器 、 浏 览 文 件 及 类 的 工具 ， 
集成 了 Qt Designer, Qt Assistant, Qt Lmeuist、 图 形 化 的 GDB 调试 前 新 和 qmake 构建 工具 等 。 

安装 Qt Creator 可 以 到 官方 网 站 下 载 .exe 安装 包 (https://www1.gt.io/download/) ， 下 载 安装 包 
前 需要 注册 和 填写 个 人 信息 才 行 。 

Qt Designer 仪 支持 在 Windows 安装 ， 并 且 可 以 使 用 pip 安装 : 


pip install PyQt5-tools 


本 书 以 Qt Designer 作为 图 形 界 和 面 开 发 工具 ， 安 装 Qt Designer 后 ， 可 以 在 Python 安装 目录 
\Lib\site-packages\pyqt5-tools 找到 designer.exe， 双 击 并 打开 Qt Designer， 如 图 21-1 所 示 。 


New Form - Qt Designe 


v templatesMorms | 
Dialog with Butt... 
Dialog with Butt... | 
Dialog without B... | 
Main Window 
Widget — 
Widgets 
应 用 程序 工具  pyqt»-tools 
BA 管理 


— 


jj > 了 文件 (F:) > Python > Lib > site-packages > pyqt5-tools 


Ah 


名 称 修改 日 其 

designer.exe 2017/9/20 23:10 

E| dum 2017/9/20 23:10 

T | 2017/9/20 23:10 
图 21-1 Qt Designer 


安装 PyQt5 和 Qt Designer (Qt Creator) 之 后 ， 接 下 来 在 PyCharm 中 搭建 开发 环境 。 为 什么 要 
在 PyChram 中 搭建 开发 环境 ? 这 里 由 于 我 们 使 用 Qt Designer (Qt Creator) 创建 并 生成 图 形 界 和 面 文 
件 ， 文 件 以 ui WERA, Æ Python 中 无 法 识别 该 文件 内 容 ， 搭 建 环境 的 目的 是 将 ui 文件 转换 成 
py 文件 。 
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不 同 的 PyChram 版 本 配置 步骤 有 所 区 别 ， 以 Windows 的 PyCharm 为 例 ，PyChram 版 本 如 图 
21-2 所 示 。 


PyCharm 


PROFESSIONAL 2018.1 


Licensed to xy / x 
You have a perpetual fallback license for this version 


[d] 21-2 PyChram 版 本 信息 


配置 步骤 如 下 : 


步骤 01 Á Su “File” EAJ “Settings”, 42| "Tools" A9 “External Tools”, 4 21-3 
所 示 。 


È Settings 

Q Tools » External Tools 
Keymap 十 

> Editor 
Plugins 

> Version Control m 


> Project: pywin m 


^ Build, Execution, Deployment 


> Languages & Frameworks 
w Tools 

Web Browsers 

File Watchers 


External [ools 


E] 21-3 External Tools 


步 叉 02 4 单 击 “Tools 一 Extemal Tools” 下 方 的 “+”"， 新 建 一 个 Tool， 输 入 信息 ， 如 图 21-4 
所 示 。 


第 21 章 实战 : 微 博 他 虫 软件 开发 | 281 


B Edit Tool x 
Name: PyUlc Group: External Tools w 
Description: 
Options 

synchronize files after execution Open console Output Filters... 


[ ] Show console when a message is printed to standard output stream [] Show console when a message is printed to standard error stream 


Show in 
Main menu Editor menu Project views Search results 


Tool settings 


Program: FAPythonpython.exe - Insert macro... 
Parameters: -m PyQt5.uic.pyuic $FileNames -o $FileNameWithoutExtension$.py Insert macro... 
Working directory: SFileDir$ i Insert macro... 
g Cancel 


图 21-4 配置 Tools 


从 图 21-4 FÆRI, Program 的 内 容 是 Python 安装 目录 的 python.exe， 这 是 Python HFE ZF: 
Parameters 是 将 ui 文件 转换 为 py 文件 的 命令 行 ，Working directory 是 转换 后 生成 文件 的 保存 路 径 。 

配置 PyChram 主要 是 将 ui 文件 快速 转换 成 py 文件 ,不 是 一 定 要 配置 PyChram 才能 转换 文件 ， 
也 可 以 在 CMD (Aim) 界面 运行 Parameters 中 的 命令 行 来 实现 转换 。 

完成 了 PyQtS 和 Qt Designer (Qt Creator) 的 安装 ， 并 在 PyChram 中 配置 了 文件 转换 工具 ， 接 
下 来 开始 讲解 软件 开发 。 


21.2 项 目 分 析 


本 项 目 是 将 热门 微 博 爬 取 和 微 博 友 布 的 功能 以 软件 的 形式 表示 ， 整 个 软件 一 共有 4 个 软件 界 
面 ， 每 个 界面 的 功能 说 明 如 下 : 

(1) 软件 主 界 面 。 疏 虫 软件 的 局 动 界面 ， 界 面 共有 三 个 按钮 : 上 友 布 、 采 集 和 相关 服务 ， 三 个 
按钮 分 别 进入 不 同 的 功能 界面 ， 如 图 21-5 所 示 。 


图 21-5 软件 主 界面 
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(2) 相关 服务 界面 。 相关 服务 是 让 用 户 设 置 验证 码 打 码 识 别 及 代理 IP 服务 。 由 于 微 博 登录 可 
能 出 现 验 证 码 识别 ， 因 此 需要 设置 第 三 方 的 验证 码 识 别 服务 。 此 外 ， 软件 还 支持 多 个 微 博 账号 批量 
发 布 微 博 ， 设 置 代理 P 服务 防止 微 博 服务 鼎 检 测 并 查封 微 博 账号 ， 如 图 21-6 所 示 。 


图 21-6 相关 服务 界面 


(3) 微 博 采集 界面 。 通 过 关键 词 搜 索 相 关 的 热门 微 博 ， 并 根据 软件 上 的 设置 进行 息 取 。 软 件 
上 设 有 微 博 账号 密码 、 采 集 内 容 ( 即 关键 词 ) 、 采 集 选 项 以 及 采集 页 数 ， 采 集 后 的 微 博信 息 显 示 在 
软件 右 侧 的 表格 。 如 图 21-7 所 示 。 


图 21-7 微 博 采集 界面 


(4) 微 博 发 布 界面 。 支 持 微 博 内 容 的 编辑 和 发 布 ， 内 容 编辑 可 在 软件 的 右 侧 的 表格 里 进行 ， 
同时 支持 CSV 文件 的 导入 和 导出 ; 软件 的 左 侧 是 软件 功能 : 服务 验证 、 文 件 通 道 、 内 容 编 辑 、 发 
布 间 隅 以 及 定时 此 布 ， 如 图 21-8 所 示 。 

以 上 述 是 整个 软件 的 4 个 界面 ， 每 个 界面 所 实现 的 功能 看 似 简单 ， 但 实现 过 程 还 是 相当 复杂 
的 。 不 仅 要 熟练 PyQts 开发 ， 还 要 将 压 虫 的 功能 骨 入 到 软件 里 ， 通 过 软件 来 控制 爬虫 的 爬 取 方 式 。 
为 了 让 读者 对 项 目 有 整体 的 认 知 ， 以 下 对 项 目的 文件 目录 进行 分 析 说 明 ， 如 图 21-9 所 示 。 
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图 21-8 METAT JH 


ico 

E temp 

[a collect.py 

[A main.py 

[A release.py 

[a service.py 

weibo.py 

[a weibo collect.py Python Fi 


FS FS " à 
rg rg cg rg 


fF oc di 
rm cp 


" 
0 


[A weibo main.py Python Fi 
[A weibo release.py Python File 
[A weibo service.py Python 

[A weibo verify code.py Python File 


| | weibo collect.ui Ul 文件 


i ^r "d "r F ti i 
rm co rm cmo 


| | weibo main.ui UI 文件 
Ul 六 性 


| | weibo release.ul 


LII WA 


| | weibo service.ut UI 文件 


图 21-9 项 目的 文件 目录 
整个 项 目的 文件 目录 共有 16 个 文件 或 文件 光 ， 每 个 文件 或 文件 严 的 作用 说 明 如 表 21-1 所 示 。 
表 21-1 项 目 文件 及 文件 夹 说 明 


文件 或 文件 
ico 文件 来 存放 软件 的 界面 图 片 ， 如 背景 图 、 按 钮 图 标 等 
temp Jf 存放 软件 的 CSV 文件 和 配置 文件 


微 博 采 集 的 功能 逻辑 代码 ， 如 按钮 的 信号 和 槽 〈 即 触发 事件 ) 


主 界面 的 功能 逻辑 代码 ， 同 时 也 是 软件 的 运行 文件 
相关 服务 的 功能 逻辑 代码 ， 如 设置 代理 IP 和 验证 码 识别 的 用 户 信 息 
微 博 发 布 的 功能 逻辑 代码 ， 设 置 微 博 发 布 方式 ， 如 定时 发 布 、 带 图 片 发 布 等 


定义 微 博 登录 、 发 布 和 采集 的 怜 虫 函数 
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CER) 


文件 或 文件 夹 


微 博 采 集 的 界面 设计 ， 代 码 是 由 weibo collectui 转换 而 成 
主 界面 的 界面 设计 ， 代 码 是 由 weibo main.ui 转换 而 成 
相关 服务 的 界面 设计 ， 代 码 是 由 weibo_service ui 转换 而 成 
微 博 发 布 的 界面 设计 ， 代 码 是 由 weibo release.ui 转换 而 成 
第 三 方 的 验证 码 识别 接口 ， 用 于 识别 微 博 登 录 的 验证 码 
微 博 采 集 的 界面 设计 ， 由 QT Designer 生成 

主 界面 的 界面 设计 ， 由 QT Designer 生成 

相关 服务 的 界面 设计 ， 由 QT Designer 生成 


weibo release.ui 做 博 发 布 的 界面 设计 ， 由 QT Designer 生成 


21.3. KIFER m 


从 软件 主 界面 的 效果 图 可 以 看 出 ， 整 个 界面 共有 三 个 按钮 以 及 微 博 的 背景 图 ， 这 三 个 按钮 分 
别 是 发 布 .采集 和 相关 服务 , 当 分 别 单 击 这 三 个 按钮 的 时 候 , 软件 就 会 目 动 切换 a 到 相应 的 功能 界面 。 
根据 软件 效果 图 ， 打 开 QT Designer 设计 器 来 设计 软件 主 界 面 。 在 Qt Designer 可 以 看 到 一 个 
新 建 窗口 的 界面 ， 有 5 种 功能 模板 可 供 选 择 ， 如 图 21-10 所 示 。 
New Form - Qt Designer 


| v templatesM forms 
Dialog with Buttons Bottom | 
Dialog with Buttons Right 
Dialog without Buttons 
Main Window 
Widget O 

Widgets 


Embedded Design 


Device: Hone 


Screen Size: Default size 


Show this Dialog on Startup 


图 21-10 Qt Designer 新 建 窗口 


虽然 新 建 窗口 提供 5 种 功能 模板 ， 但 实际 上 只 有 3 种 不 同类 型 的 模板 ， 分 别 是 Dialog、 
MainWindow 和 Widget， 三 者 作用 如 下 : 


(1) MainWindow 是 主 界 耐 ， 一 个 窗口 是 父 / 子 hiearchy 的 顶部 ， 通 季 显 示 标 题 栏 和 边框 。 撒 
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层 窗 口 系 统 (Windows、KDE、GNOME 等 ) 将 为 窗口 提供 上 略 ， 如 标题 栏 /边框 样式 、 布 局 和 焦 
所 等。 

(2) Widget 是 小 部 件 ， 是 屏 磋 上 的 一 个 窍 形 区 域 ， 用 于 显示 和 用 户 交 互 ， 包 括 按 钮 、 滑 块 、 
视图 、 对 话 框 和 窗口 等 。 所 有 窗口 小 部 件 将 在 屏 旨 上 显示 人 攻 些 内 容 , 许多 窗口 小 部 件 也 将 接受 来 目 
键盘 或 鼠标 的 用 户 输 入 。“widget” 一 词 来 自 UNIX， 在 Windows 中 称 为 “控件 ”。 

(3) Dialog 为 对 话 框 ， 通 第 是 临时 的 ， 可 以 设置 不 同 的 标题 芒 外 观 ， 主 要 用 于 通知 或 收集 输 
入 窗口 ， 并 且 底 部 或 右 侧 通 音 具有 OK. Cancel 等 按钮 。 


选择 Widget 并 创建 模版 ， 将 其 作为 软件 的 主 界面 ， 在 QT Designer 界面 里 分 为 5 个 区 域 ， 正 
中 间 区 域 是 软件 设计 的 界面 ， 左 右 两 侧 是 功能 区 域 ， 如 图 21-11 所 示 ， 功 能 区 域 的 说 明 如 下 。 


e 区 域 1: 控件 区 ， 软 件 的 功能 控件 都 在 此 区 域 生 成 ， 可 以 拖 来 控件 到 模板 上 实现 可 视 化 软 


件 设计 。 
区 域 2: 软件 的 目录 结构 ， 显 示 模 板 中 所 有 控件 的 类 型 ， 能 帮助 设计 者 快速 找到 控件 。 


e 区 域 3: 控件 属性 区 ， PP ici 
e [X 4: 1&5 (Signal) Ag (Slot) , 4&5 38 X. Qt 编程 中 对 和 象 间 的 通信 机 制 。 简 单 地 说 ， 
就 是 单 击 按钮 时 候 所 触发 的 事件 。 单 击 按钮 称 之 为 信号 ， 和 触发 的 事件 称 之 为 槽 。 


Qt Designer 


File Edt Form View Settings Window Help 


D eB 22 OL. JJ eM: 


Class 


E! Form OQWidget 


on] Push Button 

这 Tool Button 

@ Radio Button l 
Check Box 

TÒ Command Link Button 
Dialog Button Box 

^ Item Views...del-Based) 

^ Item Widg...em-Based) 

Containers 

m Group Box 

Scroll Area 

E Tool Box 


] Tab Widget 


Actio Resource'** 


图 21-11 Qt Designer 7f 


软件 主 界 面 的 背景 图 和 三 个 按钮 分 别 由 QFrame 和 QPushButton 控件 实现 , 在 左 侧 的 控件 区 里 
拖拉 Frame 和 Push Button 到 正中 间 区 域 ， 并 对 每 个 控件 的 styleSheet 属性 进行 配置 ， 将 文件 目录 
的 ico 文件 夹 的 ico 图 标 加 载 到 QFrame 和 QPushButton 控件 ， 如 图 21-12 所 示 。 
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| Widget Box a x| 1 eeeh - weibo main.ui ar Object Inspector 


at o vues EOE || Object 

Y Buttons SENI Uo c s o E Tp c 7: gre 
le] Push Button. Pepe ee | poe 2 NN 
m, Tool Button | | — e Tc | | Property Editor 


(8g Radio Button Seu M m: n e OO DIE RM IOSRRUR [Filter 中 zu y 


Li Check Box 


| frame ; üFrame 


Q Command Link Button En I DENM D s AN | | Property 
Ix] Dialog Button Box Du ENT A d CN qr uda uwuuearesc | 


^ Kem Views...del-Based) i 

> Item Widg...em-Based) 

s | -一 | >in yutMeth... ImhNone 
Z Group Box E o DIEM 

Scroll Area 

E Tool Box 


ES Tab Widget 


*| Signal/Slot =" | Action | Resource P 


图 21-12 设计 软件 主 界面 


控件 的 styleSheet 属性 值 是 固定 的 语法 , 不 同 的 控件 只 需 改 变 ico 的 文件 名 即 可 ,比如 QFrame 
控件 是 放置 微 博 背景 图 ， 即 项 目 文件 严 ico 的 bg.jpg 文件 。 将 设计 好 的 界面 保存 为 weibo_main.ui， 
该 文件 束 是 项 目 目录 的 weibo main.ui 文件 。 
在 PyCharm 左 侧 的 文件 目录 下 ， 选 中 weibo mainui 文件 并 右键 选择 “External Tool” 一 
“PyUIC”， 如 图 21-13 所 示 ，PyCharm 会 目 动 执行 Python 指令 ， 将 ui 文件 转换 py 文件 ， 即 项 目 
文件 weibo main.py。 


a weibo release. - 
[zi weibo release. 36 Cut Ctrl -X 
a weibo service. '& Copy Ctrl+C 
[95 weibo_service COPY Path Ctrl - Shift-C 
$ weibo verify cd COPY Relative Path Ctrl - Alt- Shift -C 
lill] External Libraries IB Paste Ctrl+V 
Ei Scratches and Cor = Jump to Source FA | 
Find Usages Alt F7 
Inspect Code... 
Refactor 
Validate 
Clean Python Compiled Files 


Add to Favorites 


Delete... Delete 


Show in Explorer 
P Open in Browser 
Open in terminal 
Local History 
QD Synchronize 'weibo main.ui' 
File Path Ctrl - Alt-F12 
4* Compare With... Ctrl+D | 


图 21-13 ui 文件 转换 py 文件 


在 weibo main.py 文件 里 定义 了 Ui Form 类 ， 类 方法 setupUi 和 retranslateUi 是 将 QT Designer 
设计 的 界面 以 Python 的 代码 表示 。weibo main.py 的 代码 无 需 修 改 ， 符 要 改动 界面 设计 ， 只 需 在 
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QT Designer 重新 设计 weibo main.ui 文件 ， 然 后 将 weibo main.ui 文件 转换 weibo main.py 文件 即 


可 。 


weibo main.py 文件 是 以 Python 的 代码 来 摘 述 软件 界面 的 设计 逻辑 ， 如 果 要 将 界面 呈现 出 来 ， 
还 需要 编写 相应 的 功能 代码 ， 这 些 功 能 代码 在 main.py 文件 里 实现 ， 有 具体 的 代码 如 下 : 


from 
from 
from 
from 
from 


PyDt5 import QtCore ， 
weibo main import Ui 
service import weibo 
collect import weibo 
release import weibo 


import sys 


# 软件 主 界面 

class main windows (QtWidgets.QWidget, Ui Form): 
# 自 定 义 初 始 化 函数 
def init (self, parent-None): 

super(main windows, self). init (parent) 


self.setupUi (self) 
oH logo 和 图 片 


QtGui, QtWidgets 
Form 

service logic 
collect logic 
relcace logie 


self.setWindowIcon(QtGui.QIcon('ico/logo.png')) 
E EMINE íT ES AA 
def show win (self): 
# setFixedsize 固定 界面 大 小 
self.setFixedSize(self.width(), self.height()) 
# 将 最 大 化 按钮 设 为 不 可 用 


self.setWindowFlag(QtCore.Qt.WindowMaximizeButtonHint, False) 


Selt.show(t) 


# 定义 界面 关闭 函数 


det close winl(self}: 


if 


self.close() 


name <e i man 


# 实例 化 Pyot5 对 象 
app = QtWidgets.QApplication(sys.argv) 
# 实例 化 软件 主 界面 

mw = main windows() 

# 其 他 功能 界面 的 实例 化 对 象 


service = weibo service logic() 


collect = weibo collect logic () 
release = weibo release logic () 
# 显示 软件 主 界面 


mw.show win() 


# 软件 主 界面 的 按钮 绑 定 功能 函数 


mw 
mw 


-main proxy.clicked.connect (mw.close win) 
-main proxy .clicked.connect (service.show win) 


mw.main collect.clicked.connect (mw.close win) 
mw.main collect.clicked.connect(collect.show win) 
mw.main release.clicked.connect (mw.close win) 
mw.main release.clicked.connect(release.show win) 


# 其 他 功能 界面 的 " 主 菜 单 " 按 钮 绑 定 功能 函数 


cobltect.maim wincclickedoconnecpicoliect.close win) 
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collect.main win.clicked.connect (mw .show win) 
release.main win.clicked.connect(release.close win) 
release.main win.clicked.connect (mw.show win) 
serwice.main win.clicked.connect(service-close win) 
service.main win.clicked.connect (mw.show win) 


# 软件 结束 运行 


sys.exib[app.exec 0») 
整 段 代码 分 为 两 大 部 分 ， 定义 main windows 类 和 设置 文件 运行 入 口 ， 有 具体 说 明 如 下 : 


(1) main windows 类 是 继承 weibo main.py 文件 的 Ui Form 类 ， 使 main windows 类 具有 
Ui Form 类 的 全 部 特性 ， 并 目 定 义 初 始 化 方法 init 、 类 方法 show win 和 close win， 这 些 方法 
可 进一步 完善 软件 主 界面 的 功能 。 
(2 ) 设置 文件 运行 入 口 是 通 过 1f name ==' main EM, 首先 创建 PyQts 的 实例 化 对 象 
app 以 及 各 个 界面 的 实例 化 对 象 ， 然 后 在 各 个 界面 的 “ 主 菜 日” 按钮 绑 定 功能 函数 ， 比 如 在 主 界 面 
单 击 “ 有 采集” 按钮 就 会 进入 微 博 采集 界面 ， 并 关闭 软件 主 界面 ， 这 个 单 击 操作 涉及 了 两 个 功能 ， 分 
别 是 运行 微 博 采 集 界面 和 关闭 主 界面 ， 相 应 的 代码 及 说 明 如 下 : 
# 关 闭 软件 主 界面 
#main collect 是 指 主 界面 的 采集 按钮 
mw.main collect.clicked.connect (mw.close win) 
# 运 行 微 博 采 集 界面 
#collect.show win 的 collect 是 微 博 采 集 界面 实例 化 对 象 
ishow win 是 该 对 象 下 定义 的 函数 


mw.main Collect.clicked.connect (collect.show win) 


21.4 ”相关 服务 寞 面 


从 相关 服务 界面 的 效果 图 看 到 ， 界 面 分 为 打 码 服务 和 代理 服务 ， 这 些 服 务 都 有 第 三 方 网 站 提 
供 ， 要 使 用 这 些 服务 ， 只 需 在 界面 上 设置 相关 的 账号 信息 即 可 。 对 于 这 些 服务 的 使 用 ， 本 书 不 做 详 
细 介 绍 ， 读 者 可 单 击 软件 的 “购买 打 码 服务 ”和 “购买 代理 服务 ”按钮 ， 进 入 官网 了 解 使 用 方法 。 

相关 服务 界面 的 设计 共有 7 个 QPushButton 控件 、3 个 QLineEdit 以 及 其 他 布局 控件 ， 各 个 控 
件 所 实现 的 功能 说 明 如 下 : 

主 菜单 。 关 闭 相 关 服 务 界面 并 运行 软件 主 界面 ， 实 现 界 面 之 间 的 切换 。 

购买 打 码 服务 。 单 击 该 按钮 即 可 在 本 地 的 浏览 器 打开 第 三 方 打 码 平 台 的 官网 。 

购买 代理 服务 。 单 击 该 按钮 即 可 在 本 地 的 浏览 器 打开 第 三 方 代理 开平 台 的 官网 。 

账号 和 密码 : 输入 打 码 平台 的 用 户 账号 和 密码 ， 根据 账 号 密码 调用 API 接口 来 获取 验证 码 
识别 服务 。 

单 号 。 输 入 代理 他 平 台 的 所 提供 的 单 号 ,根据 单 号 调用 API 接口 来 获取 代理 IP. 

验证 。 分 别 验证 账号 密码 ( 单 号 ) 是 否 正 确 ， 并 将 账号 密码 ( 单 号 ) 写 入 配置 文件 ， 当 软 
件 下 次 运行 时 ， 无 需 再 次 设置 。 

清空 。 清 空 软件 里 所 填写 的 账号 密码 (3) 及 配置 文件 的 信息 。 
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界面 的 设计 由 weibo service.ui 和 weibo service.py 实现 ， 软 件 功 能 由 service.py 实现 。 其 中 界 
面 设计 文件 weibo service.py 是 由 weibo service.ui 转换 而 成 ， 而 weibo service.ui 是 QT Designer 


的 设计 文件 ， 


大 致 鸭 设计 流程 与 软件 主 界面 的 一 致 ， 和 界面 设计 如 图 21-14 所 示 。 


EI fre cae -weibo service.ui 


图 21-14 相关 服务 界面 


图 上 的 按钮 设置 了 按钮 属性 objectName 和 styleSheet，objectName 是 对 控件 进行 命名 ,在 代码 
里 ， 操 控 按 钮 由 按钮 的 命名 实现 ， 比 如 设置 按钮 的 信号 柳 ( 人 触发 事件 ) ; styleSheet 是 设置 按钮 的 
ico 图 标 ， 设 置 效 果 如 图 21-2 所 示 。 至 于 界面 的 其 他 设计 ， 读 者 可 以 在 QT Designer 打开 
weibo service.ui 了 解 更 多 。 

界面 的 功能 由 service.py 文件 实现 ， 同 时 该 文件 也 是 界面 的 运行 文件 。 文 件 的 代码 结构 与 
main.py 相似 ， 定 义 软件 功能 类 和 设置 文件 运行 入 口 ， 有 具体 的 代码 如 下 : 


from PyQt5 import QtCore, QtGui, QtWidgets 
from weibo service import Ui Dialog 


import 
import 
import 
import 


requests 
configparser 
OS 

Sys 


# 相关 服务 的 功能 逻辑 
class welbo service logic(Otwidgets.oW|dget, UI Dialog): 
E 重 写 初始 化 函数 


def 


init (self, parent-None): 
super(weibo service logic, self). init (parent) 
self.setupUi (self) 
# 设置 左上 方 的 Logo 
self.setWindowIcon(QtGui.QIcon('ico/logo.png')) 
# 设置 按钮 "购买 打 码 服务 ' 的 功能 
self.buy code.clicked.connect(self.buy code def) 
# 设置 按钮 "购买 代理 服务 ' 的 功能 
Se Duyi proxy.ciicked.connect(selr.buy proxy det) 
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# 设置 打 人 码 服务 的 按钮 验证 ' 的 功能 

Sself.code bb.clicked.connectiself.set codel 

# 设置 代理 服务 的 按钮 ' 验 证 ' 的 功能 

self.proxy bt.clicked.connect (self.set proxy) 

# 设置 打 人 码 服务 的 按钮 清空 ' 的 功能 

self.code cloedn.circked.connecti(selt.code clean det) 
# 设置 代理 服务 的 按钮 清空 ' 的 功能 


self.proxy clean.clicked.connect(self.proxy clean def) 


# 读 取 配置 文件 ， 软 件 再 次 运行 无 需 重复 设置 
conf = configparser.ConfigParser () 
1f os-pabLh-exists('-/temp/cont-int'):- 
conf.read('./temp/conf.ini') 
Lf "Conf1g"” in cont. keys) 
temp = conf['config'] 
if 'proxies' in temp.keys(): 
selt.proxy text.sebText(cont['contigq']["'prox:ies']) 
1f "'user' in temp.keys(t): 
selt.code account.setText (conf['config']['user"]) 
if 'password' in temp.keys(): 
self.code password.setText (conf['config']['password']) 


# 购买 打 码 服务 
def buy code def(self}: 
ỌtGui.QDesktopServices.openUrl (QtCore.QUrl( 
'http://www.yundama.com/')) 


# 购买 代理 IP 服务 
def buy proxy def (self): 
OtGui.QDesktopServices.openUrl (QtCore.QUrl( 
"HECDZz//www.dalab5u.com/ 'Y) 


# 验证 单 号 

def set pröxy({selEy: 
proxy key = self.proxy text.text () .strip() 
1f proxy key: 


# 获取 代理 IP 

url = 'http://api.ip.datab5bu.com/dynamic/get.html? 
order-'-cproxy key + '&random-true&sep-5' 

E regquesrs-germrr) 


E 判断 IP 代理 是 否 过 期 
LÍ "Success" m SEtrIrT text): 
warm info = " 单 号 未 充值 或 者 单 号 已 经 到 期 ， 
else: 
warm info ~ "SWERK 
# 写 入 配置 文件 
conf = configparser.ConfigParser() 
1f os.path-exrists(' .;Lempy/cont.Tmr')- 
conf.read('./temp/conf.ini') 
else: 
cont.add sectron('conftq') 
cont.set('conftig', '*proxies', proxy key) 
cont.write(open('./temp/conf.intk', 'w'y) 
else: 
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warm info = “请 输入 单 号 ' 
self.proxy status.setText (warm info) 


E 验证 打 码 服务 
def set code (self): 
username = self.code account.text().strip() 
password = self.code password.text().strip() 
url = 'http://api.yundama.com/api.php?method-balance' 
data = ['usSernamcec' : username, ‘password’: password, 
'appkey': 'c5e26dla20/df586d/aaec21522dd446', 
"appid': '4055'] 
rt — rOguoscts.post(urlb, data-datad) 
OBL ze ET 
1f r.j]son(})['ret'"] == 
# 写 人 配 直 文件 
conf = configparser.ConfigParser () 
1f os.path.exists ('./temp/conf.ini'"): 
cont.read('./Lemp/conr.1(n1') 
三 
cont.add sectlon("conft1d') 
cont.set('contig', 'user', username) 
conf.set('config', 'password', password) 
cont.write(open('./temp/cont.:nr', *w'y) 
self.proxy status.setText(' 验 证 成 功 , 余 额 为 
"+str(r.]son{) [7 balance'"])) 


elif FF-]sonf) [Fet7] == -1001: 
self.proxy status.setText(' 打 人 码 平 台 账 号 密码 错误 ') 
elif r.Json(}['ret'] == -1007: 


self.proxy status.setText (' 打 码 平台 余额 为 0， 请 及 时 充值 ') 


# 清空 单 号 设置 
det proxy clean derisclt):- 
conf = configparser.ConfigParser() 
1f os.path.exists ('"./temp/conf.ini'"): 
conf.read('./temp/conf.ini") 
cont.set([('conftig', 'proxies', '') 
conf.write (open ('"./temp/conf.ini'", 'w')) 
self.proxy status.setText(' 已 清空 单 号 ") 
Selt prozy text -selleri y] 


# 清空 打 码 设置 
def code clean def (self): 
conf = configparser.ConfigParser () 
1f os.path.exists ('./temp/conf.ini'): 
conf.read{('./temp/conf.ini") 
cont.set[('contig', 'yunmauser', *'*j 
conf.set('config', 'yunmapassword', '') 
conf.write(open('./temp/conf.ini', "'w')) 
self.proxy status.setText (' 已 清空 打 和 码 平 侣 账号 密码 ' ) 
self.code account.setText('") 
Sserr-eode password.SecErexrE(* 


# 运行 界面 


def show win(self): 
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self.setFixedSize(self.width{), self.height ({)) 
self.setWindowFlag(QtCore.Qt.WindowMaximizeButtonHint,False) 
selt.show(í) 

# 关闭 界面 

def close win(self): 
selt.closeq(t) 


# 文件 运行 入 口 
1f name 0 mj 
app = QtWidgets.QApplication(sys.argv) 
ex — weibo service logic() 
ex.show() 
bxsccxTbiapposexecvt 
上 述 代 码 定 义 了 weibo service logic 类 ， 这 是 相关 服务 界面 的 功能 类 。 它 定义 了 多 个 类 方法 ， 
这 些 方法 是 实现 界面 的 功能 ， 有 具体 说 明 如 下 : 


d) int 0 用 于 重 写 初始 化 函数 ， 为 界面 上 的 按钮 绑 定 相应 的 功能 函数 。 

(2) buy code _ defO 在 初始 化 函数 绑 定 了 “购买 打 人 码 服务 ”按钮 ， 实 现 浏 览 亏 访 问 打 但 平台 的 
官网 。 

(3) buy proxy_defO 在 初始 化 函数 绑 定 了 “购买 代理 服务 ”按钮 ， 实 现 浏 览 器 访问 代理 平台 
的 官网 。 

(4) set_proxy0 在 初始 化 函数 绑 定 了 代理 的 “验证 ”按钮 ， 根 据 文 本 框 的 持 号 与 第 三 方 平台 
的 AIP 接口 进行 验证 ， 奉 验证 成 功 ， 则 写 入 temp 文件 夹 的 配置 文件 confini, $i l| pez s ub R 
E. 

(5) set code0 在 初始 化 函数 绑 定 了 打 人 码 的 “验证 ”按钮 ， 根 据 文 本 框 的 账号 密码 与 第 三 方 平 
台 的 API 接口 进行 验证 ， 奋 验证 成 功 ， 则 写 入 temp 文件 夹 的 配置 文件 confini， 否 则 提示 验证 失败 
信息 。 

(6) proxy clean defO 在 初始 化 图 数 中 绑 定 了 代理 的 “清空 ” 按钮， 实现 文本 框 和 配置 文件 的 


^ r 
^ 


ifc 


iu 


jT e 
(7) code clean def0 在 初始 化 函数 中 绑 定 了 打 人 码 的 “清空 ”按钮 ， 实 现 文本 框 和 配置 文件 的 
清空 。 


(8) show_winO 运 行 相关 服务 界面 ， 用 于 main.py 文件 的 文件 运行 入 口 。 
(9) close win0 天 财 相关 服务 界面 ， 用 于 main.py 文件 的 文件 运行 入 口 。 
在 service.py 设置 文件 运行 入 口 是 为 让 相关 服务 界面 单独 运行 ,这样 可 方便 开 友 人 员 测 试 软件 
功能 是 否 正 常 。 如 果 早 独 运行 相关 服务 界面 ， 软 件 的 “ 主 菜 蛙 ” 按 钮 是 没有 界面 切 换 功 能 的 ， 因 为 
该 按钮 的 功能 是 在 main.py 文件 的 文件 运行 入 口 设置 。 


21.5 WERE if 


WERKE IHE 8 1 n MAREE SKEAF ES. KEERA OFRE, EH 
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的 爬 取 操作 。 
微 博 采集 界面 使 用 了 多 个 不 同类 型 的 控件 ， 使 用 QT Designer 打开 weibo_collectu， 进 一 步 分 
析 软 件 界 面 设 计 原 理 ， 如 图 21-15 所 示 。 


R 21-15 ” 微 博 采集 界面 


做 博 采集 界面 共有 9 个 功能 控件 以 及 多 个 优化 控件 ， 优 化 控件 是 为 了 于 化 界面 ， 实 质 上 并 没 
有 太 多 的 功能 ， 比 如 Line 和 QLabel 控件 等 。 界 面 的 功能 控件 说 明 如 下 : 


主 菜 单 。 返 回 软件 主 界面 ， 并 关闭 微 博 采集 界面 。 

账号 密码 。 设 置 微 博 采集 的 账号 ， 因 为 疏 取 热门 微 博 需要 登录 微 博 用 户 ， 所 以 采集 微 博之 
前 ， 需 要 根据 文本 框 的 内 容 进 行 微 博 登录 。 

采集 内 容 。 采 集 热门 微 博 需 根 据 关键 词 利 选 相关 微 博 再 进行 恨 取 ， 而 该 文本 框 是 为 爬虫 提 
供 动态 的 关键 词 。 

采集 选项 。 上 默认 情况 下 只 疏 取 微 博 的 文字 内 容 ， 如 需 疏 取 微 博 的 图 片 和 视频 ， 可 勾 选 相应 
的 选项 。 

采集 页 数 。 微 博 搜 索 只 提供 50 页 的 相关 微 博 ， 通 过 设置 页 数 来 控制 尾 取 范围 。 

采集 按钮 。 用 于 启动 或 暂停 假 虫 的 运行 ， 展 取 结 果 存 储 在 CSV 文件 中 。 

进度 条 。 将 采集 页 数 进行 分 段 尾 取 ， 每 完成 一 次 疏 取 就 会 显示 相应 的 进度 ， 

状态 。 显 示 爬 虫 的 信息 提示 ， 如 用 户 登 录 是 否 成 功 、 微 博 采 集 是 否 完成 每 信息 。 

微 博 内 容 。 读 取 CVS 文件 ， 将 爬 取 结果 以 数据 表格 形式 呈现 。 


界面 的 设计 流程 与 软件 主 界面 相同 ， 将 界面 设计 文件 weibo collectui 转换 成 weibo_collectpy 
文件 ， 然 后 在 collectpy 中 定义 子 类 weibo collect logic， 通 过 继承 并 重 写 weibo collect.py 的 
Ui Dialog 25. T 25:8 55 f In e OF Bog X 6f. 5 个 类 方法 ， 有 具体 的 代码 如 下 : 

from PyQt5 import QtCore, QtGui, QtWidgets 

from weibo collect import Ui Dialog 


from weibo import * 
from PyQt5.QtCore import QBasicTimer 
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import csv, time, os, configparser, sys 


# 热门 微 博 采 集 
class weibo collect logic(Qtwidgets.QWidget, Ui Dialog): 
def init (self, parent-None): 
super (weibo collect logic, self). init (parent) 
self.setupUi (self) 
+ 设置 左上 方 的 Logo 
self.setWindowIcon(QtGui.QIcon('ico/logo.png')) 
# 设置 表格 的 表 头 格式 
self.collect data.setHorizontalHeaderLabels(['HP','XXWAE','BlH', 
' 视 频 '，' 采 集 日 期 ']) 
self.collect data.verticalHeader().setStyleSheet( 
"OHeaderview::section [background:rgb(230, 230, 230)]") 
self.collect data.horizontalHeader().setStyleSheet( 
"OHeaderView:-:secbron {background: rqb (230, 230, 230)]") 
# 设置 按钮 "采集 ' 的 功能 
self.collect start.clicked.connect (self.collect weibo data) 
self.timer = OBasrcTimer(t) 
Sedf step- 0 
# 设置 属性 ， 在 函数 之 间 调 用 
SeCIHT.sessrgM — *" 
selil keyword — 7 
self.pagenumber = 1 
# 读 取 配置 文件 
conf = configparser.ConfigParser () 
1f os.path.exists ('./temp/conf.ini'): 
conf.read('./temp/conf.ini'") 
1f 'contiq' in conf.keys(): 
temp = conf['config'] 
if 'collect username' in temp.keys(): 
self.collect user.setrText(cont]'conf i] 
['collect username']) 
rit 'cotftfect password' in temp.keyst): 
selt.collect password.setText [cont] "contig'] 
[ "collect password-]) 


# 进度 条 
def timerEvent (self, event): 
# 进度 条 已 满 ， 即 完成 采集 ， 执 行 初 始 化 ， 为 下 次 采集 准备 
1f self.step >= 100: 
self.timer.stop() 
self.collect state.setPlainText ("采集 完成 ' + "'\n'+ 
self.collect state.toPlainText[})} 
self.collect start.setText ("开始 采集 ") 
SoelLP.sEtep — 9 
SeIt.scssrog — '! 
SeltopadgoenumDcr = 1 
self. write tabiet) 
return 
# 调用 函数 collect weibo， 采 集 微 博 
collect weibo(keyword-self.keyword, session-self.session, 
pagenumber-self.pagenumber, proxies-[(], 
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get img-self.get img, get video-self.get video) 
# ERZE, WAHRER 
self .pagenumber += 1 
SIr  SCEP — Sctb-sSbcD F Seli speed 
Selt-progressBuar.setvalusciserr.sbtep) 
time.sleep(2) 


E HE'I RE ERIT RE ER C 
def collect weibo datatselct): 
if self.step == 


# 获取 采集 选项 
self.get img = self.select pic.isChecked|() 
self.get video = self.select video.isChecked() 


self.keyword = self.collect keyword.text().strip() 


+ 清空 dqatatable 数据 


# 获取 登录 账号 密码 
username = self.collect user.text().stript) 
password = self.collect password.text().strip() 
登录 
if username and password and self.keyword: 

# 登录 验证 

login info = login(username, password) 


# 判断 验证 结果 


if "session" in login info.keyst): 


self.session = login info['"session'] 

# 写 入 配置 文件 

conf = configparser.ConfigParser() 

1f os.path.exists('./temp/conf.1ini'): 
conf.read('./temp/conf.ini') 

EIE 


conf.add section('config') 
conf.set('config', 'collect username', username) 
cont.set('config', ‘collect password', password) 
cont.write([open('./temp/cont.inr', 'w"')) 


# 根据 爬 取 页 数 进行 分 段 处 理 

if self.collect page.currentIndex() == 
pagenumber = 10 

elif self.collect page.currentIndex() -- 
pagenumber = 20 

三 
pagenumber = 50 

self.speed = 100 / pagenumber 


# 暂停 或 开始 微 博 采 集 
IF selr.timer.r3ActTvet): 
self.timer.stop() 
self.collect start.setText (' 继续 采集 ， ) 
elif self.timer.isActive()--False and self.session and self.keyword: 
self.timer.start(100, self) 
self.collect start.setText(' 暂停 采集 ， ) 
# 判断 关键 词 是 否 为 空 
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elif self.keyword == '': 
self -collect state. setPlainText(' 请 输入 关键 词 ' + 
"An' + self collect statc-toPlainmrextt)) 
# 判断 当前 微 博 是 否 已 登录 
elii seli-sessrom — "55 
self.collect state.setPlainText ("WEIK mv ER' + 
"yn't + selt.collect sLtate.toPlasrnTextt)) 
# 读 取 CSV 文件 ， 将 文件 内 容 写 入 Table 
der write tabletsesltf): 
1f os-path.exrsts('.ftempy/daba-csv')- 
CSV reader - csv.reader(open('./temp/data.csv', 
'r', encoding-'gb18030"')) 
for index, row in enumerate(iter(csv reader)): 
Lr index !— p: 
self.collect data.setRowCount ( 
selt.colleci data.rpbwcounti() + 1) 
rownumber = selt.collect data.rowCount(t) 
for 1 in range(s5): 
newItem = QtWidgets.QTableWidgetItem(row[1]) 
self.collect data.setItem(rownumber - 1, i, newItem) 
self.collect data.sortByColumn(6, QtCore.Qt.DescendingOrder) 


tox X TT ER A 

def show win(self): 
self.setFixedSize(self.width(), self.height()) 
self.setWindowFlag(QtCore.Qt.WindowMaximizeButtonHint, False) 
self.showí) 

# 定义 界面 的 关闭 函数 

def close win(selt): 
Selt.closeqt) 


# 软件 的 运行 入 口 
[E name == ' main 
app = QtWidgets.QApplication(sys.argv) 
ex = weibo collect logic() 
ex.show win() 
sys.exTb[Iapp-exec D 
weibo collect logic 类 重 写 初始 化 函数 ”init 并 定义 类 方法 tmerEventO、collect weibo data(). 
write table). show win0 和 close win0， 分 别 说 明 如 下 : 


(1) 初始 化 函数 ”init 0 分 别 设置 了 软件 界面 左上 方 的 ico 图 标 、 数 据 表 格 的 表 头 内 容 和 样 
去、“ 开 始 采集 ”按钮 绑 定 功能 函数 、 定 义 进度 条 对 象 、 定 义 类 属性 和 读 取 配置 文件 ， 大 致 的 说 明 
如 下 : 
e 初始 化 函数 的 作用 是 为 软件 界面 的 运行 提供 基础 设置 , 定义 类 属性 是 为 方便 函数 之 间 的 使 
用 ， 可 以 简单 理解 为 类 的 全 局 变量 。 
e 读 取 配 置 文件 是 将 配置 文件 里 的 微 博 账号 和 密码 自动 填写 到 软件 的 文本 框 ， 这 样 无 需 使 用 
者 重复 填写 。 
e timerEventO 是 进度 条 对 和 象 特 定 的 方法 ， 由 于 展 取 方式 是 以 进度 条 为 主 ， 而 进度 条 的 执行 由 
类 方法 tumerEvent() IL, timerEvent() à] 3€ 4&4 F: 
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> 首先 判断 类 属性 step 是 否 大 于 或 等 于 100， 当 类 属性 step 符合 条 件 ， 说 明 进 度 条 已 满 ， 
即 完成 微 博 采集 ， 因 此 将 某 些 类 属性 进行 初始 化 ， 为 下 次 的 微 博 采集 作 准 备 。 

> 然后 调用 爬虫 函数 collect weibo0， 实 现 采 集 微 博 ， 函 数 参 数 以 类 属性 传 入 ， 这 些 类 属 
性 都 由 类 方法 collect weibo data0 设 置 。 

> 最 后 修改 进度 条 的 相关 参数 ， 代 表 本 次 进度 的 执行 已 完成 。 


(2) collect weibo data0) 是 绑 定 “开始 采集 ”按钮 的 功能 函数 ， 该 方法 用 于 读 取 控件 上 的 数 
据 ， 并 根据 这 些 数据 配置 相关 属性 ， 用 于 类 方法 tmerEventO 的 使 用 ;， 此 外 还 能 控制 进度 的 运行 、 
暂停 以 及 控件 内 容 的 判断 ， 说 明 如 下 : 
e 首先 判断 类 属性 step 是 否 等 于 0， 若 为 0， 说 明 进 度 条 是 第 一 次 执行 ， 因 此 对 软件 的 控件 
内 容 进 行 读 取 并 登录 微 博 账号 。 
e 如 果 登 录 成 功 ， 将 文本 框 的 微 博 账号 密码 写 入 配置 文件 ， 方便 下 次 读 取 ; 此 外 还 根据 爬 取 
的 页 数 来 计算 进度 条 的 运行 次 数 ， 类 属性 speed 是 每 次 进度 条 的 长 度 , 比如 爬 取 前 20 页 的 
微 博 ， 那 么 每 次 进度 条 的 长 度 为 S， 而 进度 条 的 总 数 为 100， 每 尾 取 一 页 ， 进 度 条 的 长 度 
都 会 累加 5， 直 到 进度 条 满 100 ib. 
e 然后 判断 进度 条 对 象 timer 是 否 处 于 活动 状态 ， 如 果 处 于 活动 状态 ， 当 再 次 单 击 “采集 ” 
按钮 的 时 候 ， 对 和 象 timer 就 会 暂停 运行 ， 再 次 单 击 “采集 ”按钮 就 会 继续 运行 疏 虫 ， 这 是 
一 种 运行 状态 的 切换 。 当 对 象 timer 在 运行 的 时 候 ， 它 就 会 自动 调用 类 方法 timerEvent(), 
A fa dure AER. 
e 最 后 对 关键 词 内 容 和 用 户 登 录 状 态 进行 判断 ， 这 些 判 断 信 息 都 会 显示 在 状态 文本 框 中 。 


(3) write_table0 方 法 用 于 将 CSV 文件 内 容 写 入 数据 表格 。 由 于 有 息 取 结果 是 写 入 CSV 文件 ， 
因此 故 虫 运行 完成 后 ， 软 件 就 会 自动 读 取 CSV 文件 ， 将 爬 取 结果 写 在 软件 的 数据 表格 ， 方 便 使 用 
者 查看 。 在 类 方法 timerEvent() 里 ， 当 类 属性 step 大 于 或 等 于 100 的 时 候 ， 它 除了 将 类 属性 重 置 之 
外 ， 还 调用 了 类 方法 write table0， 这 保证 爬虫 运行 完成 后 ， 软 件 可 上 自动 读 取 CSV 文件 并 加 载 到 数 
据 表 格 。 

(4) 类 方法 show win0 和 close win0 的 作用 与 相关 服务 界面 的 作用 一 致 ， 此 处 就 不 再 性 述 。 

总 的 来 说 ， 整 个 collect.py 文件 的 核心 代码 是 类 方法 tmerEventO0 和 collect weibo data0， 两 者 

之 间 相 辅 相 成 。 在 collect weibo data0 里 , 通过 对 象 timer 的 状态 来 决定 是 否 运行 tmerEventO 方 法 ， 
同时 ttmerEventO 所 使 用 的 数据 都 是 以 类 属性 表示 ， 这 些 类 属性 由 collect weibo data0 方 法 定义 和 
赋值 ， 也 就 是 说 ， 两 个 方法 之 间 通 过 类 属性 来 实现 数据 交互 。 


21.6 ux hr 
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主要 体现 在 以 下 几 扣 : 

(D 数据 表格 具有 编辑 功能 ， 如 目 动 增加 行 数 、 整 行 删 除 、 颜 色 填 充 等 功能 ， 而 做 博 采 集 只 
RAZM AA VE o 
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(2) 新 增 图 片 添加 和 定时 功能 ， 前 者 是 打开 系统 的 文件 对 话 框 ; 后 者 是 由 QDateEdit 和 
QCombobox 控件 实现 。 
(3) 不 同 账户 的 微 博 批量 发 布 涉及 到 代理 IP. 的 验证 与 使 用 , 微 博 定时 发 布 的 时 间 验 证 与 设置 。 
上 述 是 微 博 上 发布 的 主要 功能 ， 在 界面 设计 上 ， 打 开 weibo release.ui 可 以 看 到 软件 的 功能 控件 
主要 有 QPushButton、QTableWidget、QProgressBar、QDateEdit 和 QCombobox 以 及 其 他 界面 优化 
控件 等 ， 如 图 21-16 所 示 。 


服务 验证 0000 eP 

Wie å 导入 .CSV .] ECS TIMES Es Face Eae 
发 布 间隔 ，，，| 不 延 时 or a 
E i ittEcolumnCountiz 235 
属性 rowCounti 受 为 1 


状态 
hs 


图 21-16 微 博 发 布 界面 


从 图 21-16 上 看 到 ， 在 QT Designer 里 ， 双 击 下 拉 框 CQCombobox) 可 以 设置 选项 值 ; 日 期 选 
项 框 CQDateEdit) 用 于 设置 属性 displayFormat 的 日 期 格式 ; 右 侧 的 数据 表格 QTableWidget 可 分 别 
设置 columnCount 和 rowCount， 代 表 表 格 的 列 数 和 行 数 ， 这 些 属性 设置 可 用 于 软件 的 功能 开发 。 
此 外 ， 每 个 功能 控件 的 说 明 如 下 : 


e 主 菜单 。 返 回 软件 主 界面 ， 并 关闭 微 博 发 布 界面 。 

e 服务 验证 。 从 配置 文件 confini 读 取 代理 IP 的 单 号 ， 根 据 单 号 调用 第 三 方 平台 API 接口 获 
取代 理 IP 的 人 * 地址 。 
文件 通道 。 将 数据 表格 的 数据 导出 到 CSV 文件 或 者 将 CSV 文件 的 数据 导入 到 数据 表格 。 

e 内 容 编 辑 。 提 供 图 片上 存 功能 ， 以 图 片 文件 夹 为 单位 ， 比 如 发 送 某 条 微 博 ， 该 微 博 附带 9 
张 图 片 ， 则 在 数据 表格 选中 该 微 博 所 在 的 行 数 ， 然 后 单 击 “ 选 择 图 片 ”， 选 择 图 片 所 在 的 
文件 夹 ， 在 数据 表格 的 “图 片 ”将 会 出 现 图 片 的 路 径 地 址 ， 

e 发 布 间隔 。 设 有 4 个 选项 : 不 延 时 、 廷 时 5 秒 、 延 时 10 秒 和 延 时 15 秒 ， 用 于 设置 每 条 微 
博 的 发 送 间 隔 ， 如 果 不 使 用 代理 IP 而 且 同一 个 账号 发 送 多 条 微 博 ， 没 有 延 时 的 情况 下 很 
容 荔 将 微 博 服 务 器 判 为 尾 忠 程序 ， 因此 设置 每 条 微 博 的 发 送 延 时 可 以 巧妙 地 避 开 反 羽 忠 机 
制 。 

e 定时 发 布 。 由 一 个 QDateEdit 和 两 个 QCombobox 控件 实现 日 期 设置 ， 可 以 设置 每 条 微 博 
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的 定时 发 布 功能 。QDateEdit 是 设置 日 期 的 年 月 日 ; QCombobox 是 设置 日 期 的 时 和 分 。 当 
三 个 控件 的 内 容 发 生变 化 的 时 候 ， 数 据 表 格 的 “定时 发 布 ” 也 会 随 之 变化 。 

e 发布。 触发 微 博 的 发 布 功能 ， 将 数据 表格 的 每 行 数据 逐一 执行 ， 并 将 执行 结果 分 别 返 回 到 
状态 文本 框 以 及 在 数据 表格 填充 相应 的 颜色 。 
进度 条 。 将 发 送 微 博 的 数量 进行 分 段 发 布 ， 每 个 进度 代表 一 条 微 博 。 

e 状态。 显示 疏 虫 的 信息 提示 ， 如 用 户 登 录 是 否 成 功 ， 微 博 发 布 是 否 完成 等 信息 。 

e 发 布 内 容 。 用 于 编辑 待 发 送 微 博 的 内 容 及 相关 设置 。 为 了 方便 使 用 者 编辑 微 博 内 容 ， 数 据 
表格 设 有 自动 新 增 行 数 ， 根 据 最 后 一 行 的 “账号 ”是 否 为 空 来 决定 是 否 新 增 行 数 ; 还 可 以 
设置 键盘 事件 ， 选 中 某 行 数据 并 按 “Delete” 键 即 可 删除 当前 选中 行 ; 此 外 还 设 有 表格 颜 
色 的 填充 功能 ， 根 据 微 博 发 布 的 执行 结果 来 填充 相应 的 颜色 。 


根据 每 个 控件 的 功能 摘 述 ， 整 个 release.py 的 代码 如 下 : 


from PyQt5 import QtCore, QtGui, QtWidgets 
from weibo release import Ui Dialog 

from weibo import * 

from PyQt5.QtCore import QBasicTimer 
import csv, time, datetime 

import os, configparser 

import requests 

import sys 


E 微 博 发 布 
class weibo release logic(QtWidgets.QWidget, Ui Dialog): 
def init (self, parent-None): 
super(weibo release logic, self). init (parent) 
self.setupUi (self) 
# UH logo 
self.setWindowIcon(QtGui.QIcon('ico/logo.png')) 
# 设置 数据 表格 
self.release table.setHorizontalHeaderLabels(i 
ES E, E, RRA ERR I) 
self.release table.setRowCount (1) 
# 表格 绑 定 tableset， 让 表格 自动 添加 行 数 
Self release Fable curren CellChangedi 
"int*. Tint, *'uint'. *uipnbE*].connecEt(selt.tableset) 
# 设置 表格 的 表 头 
self.release table.verticalHeader().setStyleSheet( 
"OHeaderView::section [background:rgb(230, 230, 230)]") 
Sel relse Cable horErzonEdHeader([) -SeESEytespeer( 
"OHeaderwview-:section [background:rgb(230, 230, 230)]") 


# 导入 csv 的 数据 
self.importcsv.clicked.connect(self.importcsv def) 
# 导出 到 CSV 
selt.exportcsv.clricked.connect[(selt.exportcsv det) 
# 图 片 按钮 绑 定 功能 函数 

self.release pic.clicked.connect (self.showDialog) 
# 发 布 按钮 绑 定 功能 函数 


seli. release DL clicked: -connecti (seli. timer and wbo) 
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# 验证 代理 按钮 绑 定 功能 函数 
self.user check proxy.clicked.connect(self.check proxy) 
# 数据 表格 设 定 键盘 事件 
self.release table.activated['QModelIndex']. 
connect (self. kevPressEvent) 


# 定时 发 布设 置 
now = datetime.datetime.now() 
now year - now.strftime('$Y') 
now month = now.strftime('Z£m') 
now day = now.strftime('£d') 
now hour = now.strftime('ZH') 
now minute = now.strftime('£M') 
sSelr.dabtekEdit.sebEDate(OLCore.oDate(t 

int(now year),int(now month),int(now day))) 
# 将 定时 发 送 的 时 间 设 置 为 当前 时 间 
self.hour.setCurrentText (now hour) 
self.minute.setCurrentText (now minute) 
# 当时 间 控 件 发 生 改 变 而 触发 的 方法 ， 判 断 设 定 的 时 间 是 否 符合 微 博 的 延 时 发 送 
self.hour.currentIndexChanged['int'].connect(self.set time) 
self.minute.currentIndexChanged['int'].connect(self.set time) 
self.dateEdit.dateChanged['QDate'].connect(self.set time) 
# 初始 化 类 属性 
sert pre list = [] 
self.timer = OBasicTEimer(í) 
Sen Sep = 
seli -index ~ 0 
self.row number list = [] 
sell[.session dict = f} 


# 定义 键盘 事件 ， 用 于 快速 删除 数据 表格 的 整 行 数据 
def keyFresskEventl (self, 6j: 
keyEvent = QtGui.QKeyEvent (e) 
Jectrow — self rëeleáse tablic.currentBow() 
if keyEvent.key() == QtCore.Qt.Key Delete: 
Selr.release Lable.removeBow(getrow) 
self.tableset (i) 


# 发 博 微 博 
def release weibo(self): 
# 验证 用 户 和 发 布 微 博 , 先 判断 用 户 登 录 状 态 
Selt.chock proxyt) 
# 登录 验证 用 户 
username = self.release table.item( 
self.row number lIist[self.index], 0)-text().stript) 
password = self.release table.item( 
selt.row number 11st[selft.lIndexl，1) .text() .strip() 
# 判断 是 否 已 登录 过 


if username in self.session dict.keys() and self.proxies--([(]): 


user — self.session dict[username] 
time.sleep(3) 
epe 
user — login(username,password,proxies-self.proxies) 


# 登 承 成 功 
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II User| code] "1000": 
F 5EAXsession dict 
self.session dict[username] = user 
# 获取 登录 信息 
session = user['session'] 
person info = nscr[|'into'] 


location = person info['location'] 
watermark = person info['watermark!'] 
nick = person rnfo[*'mnick']| 
OA GUHEDn 
pic = self.release table.item( 
self.row number list[self.index], 3) 
if pic: 
if prc-text ti: 
for 1 in pic.text() .split(,"): 
i = 1.rTeplaca(r MY 1") 
1f os.path.exists (1): 
self.pic 11ist.append (1) 
# 设置 函数 参数 
Selt.value = self.release table.itemi 
self.row number list[self.index], 2).text () 


Ery: 

Sself.addtime = self.release tabole.itemi 

seli- -row number list[self.index], 4}-text(] 

except: 

self. .addtime = 7" 
# 上 存 图 上 三 
if self .pie list: 

pic list = upload pic(watermark, nick, session, 


file 1ist-self.pic list,proxlies=self proxies) 
send type = 'pic' 
self.pic list = [] 


else: 
pic list = Tj 
send type = words" 
# 发 送 微 博 
send status = send weibo(watermark, location, self.value, 


session, self.addtime, pic id list=pic list, 
send type-send type, proxies-self.proxies) 
if send status: 
status info = 'ĦP: '«username-' 微 博 发 布 成 功 !'+'Nn' 
# 设置 当前 表格 所 在 行 的 颜色 , 绿色 
self.fıll rpg(127, 255, 170) 
self.success number += 1 
else: 
status info = 'ĦP: '+username+' 微 博 发 布 失败 '+'Nn' 
seli fail number 4- 1 
# 写 入 状态 信息 
self.state value.setPlaıinText (status infor 
self.warm info4self.state value.toPlainText()) 
# 登录 失败 
pluit useri Coe = grs 
self.state value.setPlainText( 


' 用 户 : ' + username + ' 登录 失败 ,失败 原因 : 
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微 博 账 号 密码 错误 或 者 验证 码 识别 错误 ' + 'Nn' 
self.state valúe.toPlainText{}))} 
# 设置 当前 表格 所 在 行 的 颜色 ， 黄 色 
self.fill rpg(255, 255, 0) 
self. fail number +~ 1 
elf user[l'code'] == '1T002*- 
self.state value.setPlainText ("用 户 : '+username+ 
”登录 失败 ,失败 原因 : 验证 码 账号 密码 错误 或 者 余额 不 足 ' 
ANT + self.state value.toPlainText(ít)) 
# 设置 当前 表格 所 在 行 的 颜色 ， 标 色 
self.fill rpg(244, 164, 96) 
self.fail number += 1 
sell. -index +- 1 


# 定义 进度 条 
def timerEvent (self, event): 
1f self.step >= 100: 
self.timer.stop() 
self.release bt.setText(' 发 布 ") 
self.state value.setPlainText!( 
' 发 布 完 成 : 成 功 ' + str(self.success number) + 
个， 失败 " + str(self.fail number) + “个 "+ 
Mn + sertf.sbabe value.rtoPlaxnTexETl) 
Sere Step U 


self.row number list = I] 
self.iındex = 0 


self.proxies = 13 
self.warm info = 
self.pic list = T] 
sele Valie 21 
return 

# 发 博 微 博 

self.release weibo() 

# 延 时 ， 等 待 下 一 个 

SE 

time.sleep(self.time delay) 

SsSclt-prougrcssBur-sebtvalusciserr.srep) 


# 进度 条 、 按 钮 和 微 博 发 布 结合 使 用 
def timer and weibo(self): 
if self.step -- 
# 初始 化 
# 初始 化 软件 要 求 
selik step 1 
二 
E 计算 发 布 的 延 时 时 间 
self.time delay-(self.release delay.currentIndex()*5) 
# 统计 个 数 
self.success number = 0 
self lail number -U 
# 遍历 数据 表格 的 每 一 行 ， 判 断 每 行 的 数据 是 否 合理 
rownumber = self.release table.rowCount(i) 
for i in range (rownumber): 
Iripocoltor cree 
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# 判断 表格 〈 账 号 、 密 码 和 内 容 ) 是 否 为 衬 


.* 


username — self.release table.item(i, 0) 
password = self.release table.item(i, 1) 
Conten Sell TOI CE DI remit, 7) 


# 微 博 内 容 的 长 度 不 能 超过 2000 
if username.text() and password.text() 
and content.text(í) 
and len(contenLi.text()) <= 2000: 
self.row number list.append (i) 
fill color ~ False 
+ 根据 fill color 结果 判断 是 否 需要 设置 颜色 
for k in range(5): 
1f seli. release table.item(í(i, k): 
value — self.release table.item(i, k).text() 
else: 
value = "n" 
newItem = QtWidgets.QTableWidgetItem (value) 
if Eili cofor-: 
if 1 in self.row number list: 
self.row number 11st.remove[1) 
newlItem.setBackground(QtGui.QColor(200,111,100)) 
self.release table.setlItem(i, k, newItem) 


# 去 除 重复 的 内 容 


self.row number list = sorted(set(self.row number list)) 
# 获取 微 博 发 布 的 用 户 数 ， 计 算 进 度 条 的 间距 
pagenumber = len(self.row number list) if 


len(self.row number list) else 1 
self.speed = 100 / pagenumber 


# 暂停 与 开始 
lf self.timer.i1sAcEivet):- 
self.timer.stop() 
self.release bt.setText( "继续 发 布 ' ) 
eiit self.timer.isActive{} False and setr-row number list: 
self.timer.start(100, self) 
self.release bt.setText( "暂停 发 布 ' ) 


# 表格 填充 颜色 
def fill Foptselb. r, P q, s 
for k in range (5): 
if self.release table.item(self.row number list[self.index],k): 
value = self.release table.item{ 
selr.row number l|:st[iseclf.1index], k).text () 
else: 
value = "" 
newItem = QtWidgets.QTableWidgetItem (value) 
newItem.setBackground(QtGui.QColor(r, p, 9)) 
self.release table.setItem( 
self.row number list[self.index],k,newItem) 


# 将 csv 文件 写 入 数据 表格 
def i1imporbcsv def (self): 
mkdir('temp') 
if os.path.exists('./temp/dispatch.csv'): 
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# 清空 现 有 数据 


self.release table.setRowCount (0) 


# 读 取 数据 
flie — open('./temp/dispatch.csv','r',encoding-'gb18030') 
csv reader = Csv.reader (flie) 
for index, row in enumerate(iter(csv reader)): 
cL index I j): 
self.release table.setRowCount( 
self.release table.rowCount() + 1) 
rownumber = self.release table.rowCount(i) 


for 1 in range (5): 
newItem = QtWidgets.QTableWidgetItem(row[1i]) 
self.release table.setlItem(rownumber-1,1,newItem) 
seolf.state value.setPlainTextkt(t 
rF AO p in -self.state value.toPlainText ()) 
fie-closert) 
else: 
self.state value.sertPlainText( 
" 找 不 到 文件 ; dispatch.csv'«'Mn' + self.state value.toPlainText ()) 
self.release table.resizeRowsToContents() 


# 将 表格 的 数据 导出 到 Csv 文件 
def oxporEkcsv gdor(setri 
mkdir('temp') 
temp list - [] 


rownumber = self.release table.rowCount(i) 
f = open('temp/dispatch.csv','w',newline-'',encoding-'gb18030') 
writer = c5v.writer(t) 


writer.writerow(['lK*','wB','wgets'mttrEB AB) 
for i in range (rownumber): 
for k an range(5):- 
value = n? 
gb -zeli relee Dl Iteni, E) 
LIF ojb: 
# 先 判断 ojb 是 否 为 None， 在 判断 ojb 的 值 是 否 为 空 
if ojb.text(í)- 
value = ojb.text () 
temp list.append (value) 
writer.writerow(temp list) 
temp list = [] 
f.close() 
self.state value.setPlainText (' 导 出 成 功 ' +'\n' + 
self.state value.:toPlaınText(}) 


# 表格 自动 添加 行 数 
dei LtableselL(selt):- 


rownumber = self.release table.rowCount(i) 
idi rownumber == 0: 
self.release table.setRowCount (rownumber + 1) 
1f self.release table.item(rownumber - 1, 0): 
1f self.release table.item(rownumber - l, 0).text(): 


self.release table.setRowCount(rownumber + 1) 
self.release table.resizeRowsToContents() 
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# 设置 定时 发 送 

def set time(self): 
getrow = self release btablc-currentbBowt) 
getrow = 0 if getrow < 0 else getrow 
# 提取 日 期 


get date = str(self.dateEdit.date()) .split("('")[1]. 
Spiiti()'XpIür-stripi) 
# 设置 日 期 格式 
qct bime nate poli TI replace nT 
# 为 日 期 添加 小 时 和 分 钟 
get time += ' "+ self.hour.currentText()+ 
':t + self.minute.currentText{) 
# 计算 设 定 的 时 间 与 现在 的 时 间 差 
now = datetime.datetime.now ().strftime ({'%Y-%m-%d $H:2M') 
time difference = datetime.datetime.strptime( 
get time, *sY-5m 5d $H:$SM")— 
datetime.datetime.strptime (now,'$Y-£m-$d $H:£M') 
# 判断 时 间 是 否 符合 微 博 延 时 发 送 ， 寿 符合 则 写 入 对 应 的 表格 
if time difference.days »- 0: 
time seconds - time difference.seconds 
if time seconds»-300 or time difference.days»0: 
newlItem — QtWidgets.QTableWidgetlItem(get time) 
self. .release tablc.sectrbemigcetrow, 4, nowFtcem) 
self.release table.resizeRowsToContents() 
else: 
self.state value.setPlainText (' HBE/& 5 分钟 后 的 定时 微 博 哦 。'+ 
"MI + self sStdle valuc.toPIarnTextTq) 
else: 
self.state value.setPlainText(' HBE/ 5 分 钟 后 的 定时 微 博 哦 。 "+ 
"Mn + selt.state value.FoPlarinTextIir)) 


E wa ATE 
det check prozyt(tself): 
proxy tert ~- 
# 获取 代理 IP 单 号 
conf = configparser.ConfigParser () 
1f os-path-exists('./temp/cont- ini) 
cont.read('./Lemp/conft.in1"') 
1f "conftriq' in cont.keysi): 
temp = conf[*'config' | 
1f "proxres' in temp.keys(): 
proxy text-cont['confFig']['proxres'] .strip() 
If proxy Eext- 
# 获取 代理 IP 
url = 'http://api.1ip.databu.com/socks/qet.htmt? 
order="+proxy text+'&]Sson=l&type=l&sep=3" 
放生 
info = r.j]son().get{('data', '"') 
EF info: 
ip = rnfo[0]-get('ro*) 
port = a1nfo[Ul.geti('porrt") 
self.proxies=dict (http="http://'"+str(ip)+'":'"+str (port)) 
# 判断 IP 代理 是 否 过 期 


1f not r.-jso0n()-gcb('succoss', '"'): 
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self.proxies = 11 

self.warm info = ' 单 号 未 充值 或 者 单 号 已 经 到 期 ' + 'Nn' 
else: 

self.warm info = "验证 成 功 ! + '\n' 


else: 
self warm info ~- "iR RAIMH IPRS" S-'Wn' 
self.state value.setPlainTextíself.warm info + 
self.state value. toPlainText()} 


# 添加 图 片 
def showDialog (self): 
# 打开 文件 对 话 框 
foldername = QtWidgets.QFileDialog.getExistingDirectory( 
self, "请 选择 图 片 所 在 文件 严 ' t./") 
result = 三“ 
if foldername: 
pathDir = os.listdir(foldername) 
for allDir in pathDir: 
ift len[selft.pic list) < 9 and 
('.Jpg' in allDir or '.png' in allDir or .gif" in allDir}: 
child = os.path.join('$s/$s' % (foldername, allDir)) 
result — result + child + 1,7 
get value = self.state value.toPlainText () 
get value += child + ' MAH + '\n' 
self.state value.setPlainText (get value) 
self.pic list.append (child) 
# 在 已 选 的 数据 行 里 写 入 图 片 路 径 
getrow — self Telease tabfic.currentBowt] 
getrow = 0 if getrow < 0 else getrow 
newItem = QtWidgets.QTableWidgetItem(result) 
Self release Lablec-setrLem(uetrow, 5, nocwltem) 
self.release table.resizeRowsToContents() 
self.pic list = [] 


# BREEF H 

def show win (self): 
self.setFixedSize(self.width(), self.height()) 
self.setWindowFlag(QtCore.Qt.WindowMaximizeButtonHint,False) 
selt.show(í) 

der close winiselr): 
self.close() 


# 文件 运行 入 口 
ir name = 
app = QtWidgets.QApplication(sys.argv) 
ex — weibo release logic() 
ex.show win() 
syscexTb(app-exec 1) 


在 release py 里， 除了 重 写 初始 化 函数 init 之 外 ， 还 自 定 义 了 13 个 类 方法 ， 每 个 函数 方法 
所 实现 的 功能 说 明 如 下 : 
CD 初始 化 函数 ”init ”0 为 软件 的 功能 按钮 做 初始 化 处 理 ， 如 设置 数据 表格 目 动 增加 行 数 、 
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各 个 按钮 绑 定 功能 函数 以 及 初始 化 关 属 性 等 。 


(2) keyPressEvent( 定 义 键盘 事件 ， 当 按 下 键盘 的 “Delete” 键 就 会 删除 数据 表格 的 当前 选中 
行 。 参 数 e 代表 当前 事件 对 象 。 


(3) release_weibo() 实 现 微 博 登录 和 微 博 发 送 功能 ， 实 现 过 程 说 明 如 下 : 
e 调用 check proxy 方法 来 检测 代理 IP 的 单 号 是 否 可 用 ， 若 可 用 ， 则 将 IP 地 址 写 入 类 属性 


proxies. 

e 读 取 数 据 表 格 当 前 行 的 微 博 账号 密码 ， 并 与 类 属性 session dict 对 比 ， 判 断 当 前 微 博 账号 
是 否 已 有 登录 对 象 session。 由 于 数据 表格 可 以 让 同一 微 博 账号 发 送 多 条 微 博 ,通过 该 判断 
能 省 去 多 次 重复 登录 操作 。 

e 根据 微 博 登录 状态 执行 相应 的 处 理 。 比如 登录 成 功 , 状态 码 为 1000, 则 执行 微 博 发 布 功能 ; 
如 果 状 态 码 为 1001， 说 明 微 博 账号 密码 错误 或 者 验证 码 识 别 错误 ; 如 果 状 态 码 为 1002, 
说 明 验 证 码 账 号 密码 错误 或 者 余额 不 足 。 

e 如 果 用 户 登 录 成 功 ， 则 从 登录 对 芝 session 里 获取 微 博 用 户 信 息 ， 并 从 数据 表格 当前 行 的 

“定时 发 布 ” 提 取 时 间 参 数 addtime， 这 些 都 是 用 于 构建 微 博 发 布 的 请 求 参 数 。 

e 判断 数据 表格 当前 行 的 “图 片 ” 是 否 设 有 图 片 路 径 ， 若 不 为 空 ， 则 将 图 片 路 径 以 列表 表示 ， 
并 且 调 用 upload pic0 方 法 向 微 博 服务 器 上 存 图 片 ， 生 成 并 获取 相应 的 图 片 ID， 这 也 是 用 
于 构建 微 博 发 布 的 请 求 参数 。 

o 完成 请 求 参数 的 构建 ， 接 着 是 调用 send weibo0) 方 法 实现 微 博 发 送 功能 ， 该 方法 共有 8 个 
参数 ， 这 些 参 数 的 参数 值 分 别 来 自 软 件 界 面 的 数据 和 用 户 登 录 信 息 。 

e 微 博 发 送 成 功 后 ， 数 据 表格 当前 行将 填充 成 绿色 并 在 状态 文本 框 写 入 信息 ， 若 发 送 失败 ， 
则 在 状态 文本 框 写 入 相应 的 信息 。 

e 当 用 户 登 录 失败 ,状态 文本 框 写 入 有 具体 的 错误 信息 ， 同 时 根据 状态 码 在 数据 表格 里 填充 相 
应 的 颜色 。 若 状态 码 为 1001， 数 据 表格 填充 成 黄色 ; 若 状 态 码 为 1002， 数 据 表 格 填充 成 
棕色 。 


(4) timerEventO 与 微 博 采集 的 ttmerEventO 相 同 ， 这 是 进度 条 对 象 特定 的 方法 ， 该 方法 的 代 
码 结构 与 微 博 采 集 的 timerEventO 相 同 ， 此 处 不 再 详细 讲述 。 

(5 )timer and weiboO0 是 “发 布 ” 按 钮 的 功能 函数 , 它 的 作用 与 微 博 采集 的 collect weibo data() 
相同 。 访 方法 除了 控制 进度 条 对 象 tmer 的 运行 状态 之 外 ， 还 授 历 数据 表格 的 所 有 非 空 行 数 ， 对 每 
一 行 的 数据 进行 简单 的 清洗 和 判断 ， 如 果 当 前 行 的 数据 不 符合 判断 人 条件， 则 盾 序 上 相应 的 颜色 ， 表 
示 当 前 微 博 不 符合 肥 送 规则 。 

(6) fill ipgO 是 表格 的 颜色 填充 方法 ， 主 要 在 release. weibo0) 方 法 调用 。 实 现 过 程 是 过 历 当前 
行 的 每 个 单元 格 ， 册 对 每 个 单元 格 进行 颜色 填充 。 

(7) importesv defO 是 绑 定 “导入 CSV" 按钮 的 功能 函数 , 将 数据 表格 的 数据 写 入 dispatch.csv 
文件 ， 文 件 编码 设 为 gb18030， 这 样 可 以 解决 Excel 读 取 CVS 的 乱码 问题 。 

(8) exportesv defO 是 绑 定 “导出 CSV” 按 钮 的 功能 尔 数 ， 将 dispatch.csv 文件 内 容 写 入 数据 
表格 ， 文 件 编码 设 为 gb18030。 

(9) tablesetO 是 根据 表格 的 currentCellChanged 事件 而 诀 定 是 否 新 增 行 数 ，curentCellChanged 
是 当 表格 内 容 发 生变 化 时 而 触发 的 事件 。tableset0 是 判断 表格 总 行 数 ， 如 果 行 数 为 0， 则 新 增 一 行 ; 
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如 果 行 数 不 为 0 并 且 最 后 一 行 的 “账号 ”不 为 室 ， 表 格 也 会 自动 新 增 一 行 。 

(10) set time0 是 时 间 控 件 QDateEdit 和 QCombobox 的 功能 困 数 ， 该 方法 是 谈 取 三 个 控件 的 
时 间 并 与 当前 时 间 进行 计算 ,如果 计算 结果 符合 微 博 延 时 发 送 规则 , 将 控件 的 时 间 写 入 表格 的 “ 定 
时 肥 布 ”， 人 否则 提示 错误 信息 。 

(11) check_proxy0 古 读 取 配置 文件 的 代理 IP 单 号 并 同 第 三 方 平台 友 坟 请求， 获取 代理 IP 地 
址 ， 从 而 验证 代理 IP 服务 是 否 正 第 使 用 。 

(12) showDialogO 是 打开 本 机 系统 的 文件 对 话 框 ， 让 使 用 者 选择 图 片 文件 光 ， 然 后 谈 取 文件 
夹 的 图 片 路 径 并 写 入 表格 的 “图 片 ”。 

(13) show_win() 和 close win0 的 作用 与 相关 服务 界面 的 作用 一 致 ， 此 处 就 不 再 重复 讲述 。 


总 的 来 说 ， 微 博 发 布 的 代码 结构 与 微 博 采集 的 代码 结构 是 相似 的 ， 两 者 都 是 使 用 进度 条 功能 
来 执行 相应 的 爬虫 程序 。 而 微 博 发 布 界 面 涉 及 了 表格 的 编辑 和 颜色 填充 等 操作 , DU EE ECCO S: 
界面 更 为 复杂 ， 复 杂 程 度 在 于 软件 的 功能 开发 ， 并 非 候 虫 程序 。 

运行 release.py 文件 , 在 界面 的 数据 表格 分 别 新 增 4 条 数据 , 这 4 条 数据 的 微 博 账号 是 相同 的 ， 
并 且 设 置 了 不 同 的 发 布 方式 。 当 单 击 “ 发 布 ”按钮 后 ， 软 件 会 对 每 条 数据 的 内 容 进行 判断 并 填充 相 
应 的 颜色 ， 如 果 颜 色 为 绿色 ,说 明 微 博 发 布 成 功 ， 帮 为 柠 色 ， 则 代表 数据 内 容 不 符合 微 博 发 送 要 求 
或 者 验证 码 账 号 密码 错误 或 者 余额 不 足 ， 若 为 黄色 ， 说 明 微 博 账号 密码 错误 或 者 验证 码 识别 错误 ， 
如 图 21-17 所 示 。 


图 21-17 ” 微 博 发 布 功能 


21.7 ” 微 博 爬虫 功能 


在 微 博 采集 和 微 博 发布 的 功能 代码 里 分 别 调用 collect weibo), send weibo), upload picO 和 
login) Kr. XEU ri pq E XE weibo.py 文件 中 ， 函 数 的 实现 过 程 在 第 20 章 已 有 详细 讲述 ， 在 
本 节 中 ， 我 们 对 不 虫 国 数 进行 细微 的 调整 ， 使 得 爬虫 图 数 能 与 软件 相互 结合 使 用 。weibo.py 文件 的 
代码 如 下 : 

import time 

import base64 


import rsa 
import math 
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import random 

import binascii 

import requests 

import re, Json, urc!lib, csv, datetime, os 

from weibo verify code import code verificate 
from bs4 import BeautifulSoup 

from concurrent.futures import ThreadPoolExecutor 


EAEE FE HE HEA EE F F HH 

# 登录 微 博 

EAEE FE HE HE AEE F F EH 

index url — "hEtEp:/ /we:bo.com/Tiogin-php* 
yundama username = 'beeto' 

yundama password = 'beetol123' 


verify code path - '' 


def get pincode url (pcid): 


size = 0 
url = "http://login.sina.com.cn/cgli/pin.php" 
pincode url COUDESPE.DIP&S— [sp i}: format (url, 


math.floor(random.random() * 100000000), 
size, pcid) 
return pincode url 


def get img (url, headers): 
resp POUHGSULS-UgEEIHEE headers headers, Cream Pru) 
global verify code path 
mkdir('temp/code') 
verify code path-'./temp/code/$s.png'$(str(int(time.time()*1000))) 
with open(verify code path, 'wb') as f: 
tor chunk in resp.1iEer conEenE([T000) : 
f.write(chunk) 


der get sifusernmname)- 
对 email 地 址 和 手机 号 人 码 先 javascript 中 encodeURIComponent 
对 应 Python 3 中 的 是 urllib.parse.quote plus 然后 在 base64 加 密 后 decode 
username quote = urllib.parse.quote plus (username) 
username baseó64-baseo4.b64encode(username quote.encode ("utf-8")) 
return username baseóe4.decode("utf-8") 


i 预 登陆 获得 servertime, nonce, pubkey, rsakv 
def geb server data (su, session, headers, proxies): 
pre url = "http://login.sina.com.cn/sso/prelogin.php? 
entry-weibo&callback-sinaSSOController. 
preloginCallBack&su-" 
pre url = pre url-«su-"&rsakt-mod&checkpin-1& 
client-ssologin.js(v1.4.18)& -" 
prelogin url = pre url + str(int(time.time() * 1000)) 
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pre data res-session.get(prelogin url,headers-headers,proxies-proxies) 


Sewer data — evaliprc daba res content. decode (TOEP 81). 
replace ("sinassoController.preloginCallBack"™","")) 
return sever data 
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# 这 一 段 用 户 加 密 密 码 ， 需 要 参考 加 密 文 件 
def get password(password,servertime,nonce,pubkey): 
rsaPublickey = int(pubkey,16) 
# DEAH 
key — rsa.PublicKey(rsaPublickey, 65537) 
# 拼接 明文 js 加 密 文 件 中 得 到 


message-str(servertime)-'Mt'-«-str(nonce)-'Mn'«str(password) 


message = message-encpDdet utt-8^*) 
# 加密 
passwd = rsa.-encrypt (message, key) 


# 将 加 密 信息 转换 为 16 进 制 
passwd = binascii.b2a hex(passwd) 
return passwd 


def login (username, password, proxies-(]): 
# 构造 Request headers 
verify code = 'Nocode' 
agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/41.0" 
headers = { 
"User Agent: agent 


} 
# 新 建 会 话 
session = requests.session() 
# su 是 加 密 后 的 用 户 名 
su = get sn (Husernamel) 
sever data - get server data(su,session,headers,proxies) 
servertime = sever data["serverbime"] 
nonce = sever data['nonce!']| 
rsakv = sever data["rsakv"] 
pubkey = sever datal pubkey "| 
password secret-get password(password,servertime,nonce,pubkey) 
postdabta — | 
"entry'- 'weibo", 
"Uuuaccwaw's "p 
Pom : vet 
'savestate': 'J', 
"usetickeLb's T11 
'pagerefer': "http://login.sina.com.cn/sso/logout.php? 
entry-miniblog&r-http$3A22F$2Fweibo.com 
s2Plogout.phps3Pbackurl", 


和 

te c cS 

'service': '"mimrblog*, 
'servertime': servertime, 
'nonce': nonce, 
Ctpwoencode tz Trsa?" 


Upsudkw'- rfSadkv, 

SP : password secret, 

Sri T1360 168; 

'encoding': 'UTF-8', 

"prelp : PIa, 

'url': 'http://weibo.com/ajaxlogin.php?framelogin-1l&callback- 
parent.sinaSSOController.feedBackUrlCallBack', 


第 21 草 实战 : 微 博 爬 虫 软件 开发 | 311 


"returntypo': "META" 
} 
try: 
need pin - sever data['showpin'] 
if need pin -- 
if not yundama username: 
raise Exception( "由 于 本 次 登录 需要 验证 码 ， 请 配置 顶部 位 置 云 打 码 的 
用 户 名 {11} 及 相关 密码 ' .format (yundama username)) 
pcid = sever data['pcid'] 
postdata['pcid'] = pcid 
img url = get pincode url(pcid) 
get img(img url, headers) 


verify code - code verificate(yundama username, 
yundama password, verify code path) 
postdata['door'] = verify code 


login url = "'http-//login-5rna.-com.cn/5s3o/Iogin-php*? 
clrenb-ssologin.]s(vl.4.18)' 

login page = session.post(login url,data-postdata, 

headers-headers,proxies-proxies) 

login loop - (login page.content.decode ("GBK")) 

pa = vr'Llocatrony-repfaceX[[X" "11-5 2] I^ "IX" 

loop url = re.findallípa, login loop) [0] 

login TrBdex 5essTon.get( toocpO url, headers-headcrs, prox res proxies) 


uuid = login index.text 

uuid pa = r'"unsgueid?-*4(.*2)9* 

uuid res = re.findall (uuid pa, uuid, re-5) [0] 
web weibo url = "http://weibo.com/$s/profile? 


topnav-l&wvr-6&is all-1" $ uuid res 
weibo page-session.get(web weibo url,headers-headers, 
proxies-proxies) 
weibo pa — r'«ETFIc-[.*97)«e/trEIG?"' 
user name = re.findall(weibo pa, weibo page.content. 
decode ("utf-8", "'"rgnore'), re.s)[0] 


# 获取 用 户 信息 
response = weibo page.text 
person inio — f} 
if 'S$CONFIG' in response: 
person info['nick'] = response.split( 
"SCONFIG[ nick']="") [1] .split("";")[0] 
person info['watermark'] = response.splitl 
"SCONFIG[ 'watermark"]="") [1] .split("";") [0] 
person info['location'] = response.split( 
"ŞCONFIG["'location'"]='"")} [1].split({("";") [0] 
person nfüO['uid'|] — response- spliti 
"SCONFIG['uid"]='"") [1] -split ("'";") [0] 
person info['domain'] = response.split( 
"$CONFIG[ "domain ]="") [1] .split ("7;")[0] 
person info['oid'] = response.split( 
"SCONFIG["oid"]='"") [1] .split(™;")y[0] 
print (' 登陆 成 功 ， 你 的 用 户 名 为 : ' + user name) 
return |'sessiom'-sesstronm,':nfo'-person info,'code':"]000"} 
DOE 
if verify code !- 'Nocode' and verify code == '': 


# 打 码 平台 账号 密码 错误 或 者 余额 不 足 
return ['code'- 1002°"] 
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else: 
# 微 博 账 号 密码 错误 或 者 验证 码 识别 错误 
return 1 code - (D0F*] 


EEFE FE FE FE EEE E E H 
EEFE E FE EEE E E H 
# 获取 上 传 图 片 ia 
def upicoad pic (watermark, nick, SessLlon, iile !15t-[],;proxies-[]): 
return result = E] 
agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10 12 5) 
AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/60.0.3112.113 Satarti/»537.35' 
headers = { 
"User Agenti: agent 
} 
ne PSP) — O ond PencETE-S TAn s 10: 
for 1 in file list: 
url-'http://picupload.service.weibo.com/interface/pic upload.php? 
mime-image/png&data-base64&url-weibo.com/' + str(watermark)- 
'&markpos-1&logo-&nick-Q8'-«str(nick)-*'&marks-1&app-miniblog' 
Ir vos i 
'b64 data':base64.b64encode (open(i, "rb").read()) 
} 
r-session.post(url,files-files,headers-headers,proxies-proxies) 
Ery: 
get picid = Json.loads (r.text.split ('</script>") [1]) 
[datali pis I ou T pid] 
return result.append(get picid) 
EXEC 
pass 
return rcrurn resnie 


# 发 送 微 博 。send type 判断 是 否 发 送 图 片 

# pic id list 是 上 传 图 片 后 所 生成 的 Id 

def send weibo (watermark,location,value,session,addtime-'', 
pic id list-[],send type-'words',proxies-[(]): 


headers = { 
'Referer': 'https://weibo.com/' + str (watermark) + '"/home', 
'user-aqent': 'Mozilla/5.0 (Macintosh; Intel Mac O5 X 10 12 5) 
AppleWebKit/537.36 (KHTML, like Gecko) 
Chrume/60.0.3112.113 Safari/537.36"} 
data = 1] 
# 发 送 文字 
1f send type == 'words': 
data = [*'Location'- location, 'text'- value, "'anpkey'- '*, 
"style type: TIT "pp Id": €". Tidi: mr, 
"pdetail": "", "addtime': addtime, 
"rank"- "D". Trank": "" module": 'sErssue', 
"pub type': 'diralog', 'pub source': "main ', * t": 'D' 
} 
# 发 送 图 片 
elif send type !— ' Words' and pic id list: 


pred 1 
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for 1 in pic id list: 

pic id += 4 + "|" xr len(pic id list) > 1 else 1 
# EBREJA N | 
if pic id[ i] = t": 

pic id = pic 1ıd[0:len{pic id} — 1] 


data = {'"location": location, 'text': value, 'appkey': '', 

tSbyTe Lype’: 11"; Tpic 1d: prec id, 'tid's 5*. 
'pdetail': "*. "gif ids': "*. "updata img num’: 
str(len(pic id l1i1st)), 'addtime': addtime, 

trank” "OT". "'rankid': *'*.  'module*: 'sET5SSue*, 

"pub tvpe'- 'dralon'. 'pub sourcc'- main '," t':'0' 

} 
url = 'https://www.weibo.com/aj/mblog/add? 


ajwvr-6& rnd-$s' $ (int(time.time()*1000)) 
r-session.post(url,data-data,headers-headers,proxies-proxies) 
if r.stadtus code=- 700: 
return True 
else: 
return False 


EEFE FE FE FE EEEE E E H 
# 采集 数据 
EEFE FE AE EEE E E H 
def mkdir (path): 
# 去 除 首 位 空格 
path = path.strip() 
# 去 除 尾 部 \、 符 号 
path = path.rstrip(™\\") 
# 判断 路 径 是 否 存 在 
iSsExriISLS — os-.path.exisEs (path) 
E HAER 
1f 'csv' in path and isExists--False: 
f-open('temp/data.csv','w',newline-'',encoding-'gb18030"') 
writor = rb5v.wrlter(it) 
writer.writerow(['HJP', "文本 内 容 ',' 图 片 ',' 视 频 ', ' 采 集 日 期 ']) 
p :clmnser) 
jf nob 1is&E&xi15Ls and 'csv' not in path- 
os.makedirs (path) 


E RESER 
def more thread (get video value, video path): 
1f get video value: 
url = get video value['action-data']. 
split('video src=") [1] .split('&cover img "1 [0] 
url = http:" + urllib.parse.unquote (url) 
try: 
temp waluc = requests.get (url) 
video = open ('temp/video/'+video path, "'wb') 
video.write(temp value.content) 
video.close() 
except: 
pass 


# RERBA 
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def thread img(k, img path): 


img r = requests.get('http:" + k['src"]) 
img = open('temp/image/' + img path, 'wb') 
img.write(img r.content) 

img.close() 


# 获取 搜索 内 容 


def collect weibo(keyword,session,pagenumber-1,proxies-(], 


get img-False, get video-False): 
now = datetime.datetime.now().strftime('£Y-£m-£d') 
keyword = urllib.parse.quote (keyword) 


url — 'https://s.weibo.com/weibo?q-' + keyword - 
'&Refer = SWeibo bo&page-$s' $ (str(pagenumber)) 
agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/41.0' 
headers = { 


"User Agent: agent 
} 
r = session.get(url, headers-headers, proxies-proxies) 
get value = r-EFext.reptacer Wy 7) 
soup = BeautifulSoup(get value, 'html5lib') 
# 定位 用 户 信息 
get info — soup.tFrnd ol Cass —"conbEenE") 
# 生成 素材 文件 夹 
mkdir('temp') 
mkdir('temp/image') 
mkdir('temp/video') 
mkdir('temp/data.csv') 
for 1 in get info: 
# 获取 文字 全 部 内 容 
get comment = 1.find all('p',class -'txt') 
if get comment: 
if Ien(get comment) > 1: 
ger comment = get commsnt[I-t] 
pue 
get comment = get comment [0] 
# 输出 全 部 文字 内 容 
comment = get comment.getText().strip() 
# 获取 用 户 信息 
get user = 1.find('a',class ='name') 
if get user: 
user name = get user.getText().strip() 
Eau 
Sor namne F: 
# JERKE 
img paih list — 1 
if get img: 
# 获取 图 片 内 容 
get img valus — TO Ud CCTsS mj") 
# 输出 图 片 


if get img value: 


get img value = get img value.find all('img!') 


for k in get img value: 


img path — strí(rntttrme.timct) * 1000)) x 


pg. 
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img path list = img path List 4 mg path F "A" 
pool = ThreadPoolExecutor (max workers-1) 
pool.submit(thread img, k, img path) 

# EB 

video path = "" 

if get video: 


# 输出 视频 
get video value = i.find('a',class -'WB video h5') 
if get video value: 

pool = ThreadPoolExecutor (max workers-1l) 


video path = str(int(time.time()*1000))-'.mp4' 
pool.submit(more thread,get video value,video path) 
# 用 于 生成 csv 
f = open('temp/data.csv','a',newline-'',encoding-'gb18030') 
writer = csv.writerif) 
writer.writerow([user name,comment,img path list,video path,now]) 
f.closel) 
上 述 代 码 定 义 了 多 个 国 数 ， 但 真正 的 爬虫 图 数 只 有 login), send weibo0 和 collect weibo0， 
其 他 函数 都 是 被 它们 所 调用 。 而 爬虫 图 数 可 取 第 20 章 所 实现 的 代码 ， 并 且 在 此 基础 上 进行 修改 ， 


(1) 函数 login0 新 增 函 数 参 数 proxies, SRU RUHET, WREX proxies HE, MWA 
在 登录 的 过 程 中 会 使 用 参数 proxies 作为 代理 IP 进行 账号 登录 。 函数 返回 值 新 增 状态 码 code, 在 软 
件 界面 里 根据 code 判断 用 户 登 录 情 况 ， 方 使 使 用 者 排查 异 背 。 

(2) 函数 send weiboQ 3/123 AXIA% send type 和 proxies， 参 数值 分 别 为 words 和 空 字 典 。 参 
数 send type ÆFIR mEn mA BRA RS 参数 proxies 作为 代理 IP 进行 微 博 友 布 。 

(3) ŽI collect weibo( HS ER LS X proxies. get img 和 get video, 4B 1 91 ATTIE, 
False 和 False. 2X proxies 作为 代理 IP 进行 微 博 采集 ; get img 和 get video 是 根据 采集 选项 的 勾 
选 情况 来 决定 是 否 疏 取 图 片 和 视频 。 

此 外 ， 其 他 功能 函数 还 需要 结合 息 虫 函数 的 修改 而 进行 相应 的 调整 ， 最 明显 的 调整 是 参数 

proxies 的 传递 和 使 用 。 


21.8 Æ «5 2 


A38 GEB [f EH EAUEBDT A. DOES BT) TERMAH, Bx BE mXEH 12306 
1& RATE. EAER. ERBARAEAUCEUH PAUSUI HUP. vg SOT BUDE EGRE HUE, 3X EE SA 
件 可 以 实现 多 用 户 的 批量 操作 , ELA TB BEES EIS ra E83: HL UC t E83 UJ ELTE IT 5 d ECC B 
^k. 

微 博 爬虫 软件 主要 实现 4 个 功能 界面 : 软件 主 界面 、 相 关 服 务 界面 、 微 二 采集 界面 和 微 博 发 
布 界面 。 其 中 核心 界面 有 微 博 采集 界面 和 微 博 发 布 界面 ; 相关 服务 界面 为 两 个 核心 界面 提供 第 三 方 
服务 ; 软件 主 界面 是 为 整个 软件 提供 运行 入 口 ， 通 过 主 界面 实现 界面 之 间 的 切换 。 

软件 主 界面 共有 三 个 按钮 及 一 个 微 博 的 背景 图 ， 这 三 个 按钮 分 别 是 发 布 、 采 集 和 相关 服务 ， 
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当 分 别 日 击 这 三 个 按钮 的 时 候 ， 软 件 束 会 目 动 切换 到 相应 的 功能 界面 。 

相关 服务 界面 分 为 打 码 服务 和 代理 服务 ， 这 些 服务 都 是 第 三 方 网 站 提供 ， 要 使 用 这 些 服务 ， 
只 需 在 界面 上 设置 相关 的 账号 信息 即 可 。 对 于 这 些 服务 的 使 用 ， 本 书 不 做 详细 介绍 ， 庶 者 可 单 击 软 
件 的 “购买 打 码 服务 ”和 “购买 代理 服务 ”按钮 ， 进 入 官网 了 解 使 用 方法 。 

微 博 采集 界面 是 将 热门 微 博 的 肘 虫 与 软件 开 友 相 结合 ， 这 是 爬虫 软件 的 核心 开 有 思想 ， 使 用 
者 在 软件 设置 的 信息 会 以 图 数 参数 的 形式 传递 给 爬虫 函数 , 扑 颗 根据 用 户 设 置 的 信息 去 执行 相应 的 
爬 取 操作 。 

做 博 发 布 界面 与 做 博 采集 界面 在 设计 上 有 一 定 的 相似 之 处 ， 但 两 者 在 功能 上 存在 看 明显 的 到 


COD 数据 表格 具有 编辑 功能 ， 如 自动 增加 行 数 、 整 行 删除 、 颜 色 填 充 等 功能 ， 而 微 博 采 和 集 只 
具有 数据 查看 功能 。 

(2) 新 增 图 片 添 加 和 和 定时 功能 ， 前 者 是 打开 系统 的 文件 对 话 框 ; 后 者 是 由 QDateEdit 和 
QCombobox 控件 实现 。 


(3) 不 同 账户 的 微 博 批量 发 布 涉及 到 代理 IP. 的 验证 与 使 用 , 微 博 定 时 发 布 的 时 间 验 证 与 设置 。 


Scrapy EEF È 


22.1 认识 与 安 实 Scrapy 


22.1.1 $ MERERI A 


ERER EAER ER pp jt f RA SEARES. EAE, a ARG 
体 问 题 扩 展 、 安 插 更 多 的 组 成 部 分 ， 从 而 更 迅速 和 方 使 地 构建 完整 的 解决 问题 的 方案 。 

Python 第 见 的 爬虫 框架 如 下 。 

e  Scrapy 框架 : Scrapy 框架 是 一 套 比 较 成 熟 的 Python 爬虫 框架 ,是 使 用 Python 开发 的 快速 、 
高 层次 的 信息 恨 取 框架 ， 可 以 高 效 地 恨 取 Web 页 面 并 提取 出 结构 化 数据 。 
PySpider 框架 : PySpider 是 以 Python 脚本 驱动 的 抓 取 环 模型 疏 虫 框架 。 

e Crawley 框架 : Crawley 也 是 Python 开发 的 疏 忠 框架 ， 该 框架 致力 于 改变 人 们 从 互联 网 中 
提取 数据 的 方式 .。 

€ Portia 框架 : Portia 是 一 款 允 许 没 有 任何 编程 基础 的 用 户 可 视 化 地 爬 取 网 页 的 爬虫 框架 。 

e Newspaper 框架 : Newspaper 是 一 款 用 来 提取 新 闻 、 文 章 以 及 内 容 分 析 的 Python E RER. 


爬虫 框架 能 为 项 目 开 上 友 起 到 规范 作用 ， 也 因为 如 此 ， 使 其 失去 一 定 的 灵活 性 。 很 多 人 会 将 
Requests 和 Scrapy 两 者 进行 对 比 ， 前 者 是 第 三 方 库 ， 后 者 是 爬虫 开 友 框 并 ， 尽 管 两 者 不 在 同一 层 
次 上 ， 但 还 是 有 一 定 的 对 比 性 。 
e 规范 性 : Scrapy 有 自身 的 一 套 规 则 ， 自 带 功 能 模块 能 完成 慌 虫 开发 ， 各 个 功能 代码 划分 明 
确 。Requests 只 规范 数据 撒 取 ， 不 支持 数据 清洗 和 数据 存储 ， 需 结合 其 他 库 一 起 使 用 才能 
ERREFE. 

e KEE: Scrapy 有 较 强 的 规范 性 ， 叶 致 其 只 活性 比 不 上 Requests， 对 于 一 些 设计 不 合理 的 
网 站 或 者 较为 特殊 的 网 站 ，Requests 能 针对 其 特殊 性 制定 完善 的 解决 方案 。 

e 适用 范围 : Scrapy 适用 于 大 型 导 虫 开发 项 目 ， 主 要 归功 于 其 具有 明确 的 规范 性 ， 便 于 开发 
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者 对 代码 的 维护 和 管理 。Requests 对 开发 人 员 的 编程 习惯 有 较 大 影响 ， 如 果 架 构 设 计 不 合 
理 或 者 更 换 开 发 人 员 ， 会 使 代码 维护 管理 难以 把 控 。 


总 的 来 说 ， 无 论 是 框架 式 开 发 还 是 非 框 架 开 发 ， 痢 应 针对 项 目的 整体 需求 制定 合理 的 开发 设 
计 方 案 。 只 要 是 合理 的 便 是 最 好 的 ， 无 论 是 框架 与 非 框 淋 ， 只 是 一 个 开发 工具 而 已 。 

在 Python 中 ， 开 源 扑 虫 框架 很 多 ， 但 并 不 需要 向 握 每 一 种 扑 虫 框架 ， 只 需要 深入 向 握 一 种 即 
可 。 大 部 分 仆 虫 框架 的 实现 方式 都 大 同 小 异 , 基本 上 痢 是 围绕 候 虫 开发 流程 (网 页 抓 取 、 数 据 清洗 、 
数据 入 库 和 异步 并 发 处 理 等 方面 ) 设计 而 成 的 。 

Scrapy 是 一 个 为 了 有 息 取 网 站 数据 、 提 取 结 构 性 数据 而 编写 的 应 用 框架 ， 主 要 应 用 在 数据 挖掘 、 
信息 处 理 或 存储 历史 数据 等 一 系列 程序 中 。Scrapy 最 初 是 为 了 页 面 抓 取 而 设计 的 ， 也 可 以 应 用 在 
获取 API 所 返回 的 数据 (例如 Amazon Associates Web Services) 或 者 通用 的 网 络 爬 虫 中 。 

Scrapy 基于 Twisted 染 构 ， 使 得 可 以 级 联 多 个 操作 ， 包 括 清理 、 组 织 、 和 存储 数据 到 数据 库 等 。 
假设 抓 取 一 个 网 站 ， 网 站 的 每 一 页 有 上 上 百 数 据 ，Scrapy 可 以 同时 对 这 个 网 站 发 起 16 个 或 者 更 多 请 
求 ， 假 如 每 个 请 求 需要 一 秒 钟 来 完成 ， 相 当 于 每 秒 钟 息 取 16 个 页 面 ， 每 秒 钟 生成 1600 条 数据 ， 把 
这 些 数据 同时 存储 入 库 ， 每 条 数据 的 存储 需要 3 秒 钟 〈 假 设 时 间 ) ， 为 了 处 理 这 16 NER, Wem 
要 运行 1600X3 = 4800 个 并 发 的 写 入 请 求 ， 对 于 一 个 传统 的 多 线程 程序 来 说 ， 就 需要 转换 成 4800 
个 线程 ， 这 会 对 系统 造成 极 大 的 压力 。 对 于 Scrapy 来 说 ， 只 要 硬件 过 关 ，4800 个 并 发 请 求 是 没有 
问题 的 。 除 此 之 外 ，Scrapy 还 提供 了 selectors (在 Ixml 的 基础 上 提供 了 更 高 级 的 接口 ) ， 可 以 高 
效 地 处 理 不 完整 的 HTML 代码 。 


22.1.2 Scrapy 的 运行 机 制 


Scrapy 使 用 Twisted 异步 网 络 库 来 处 理 网 络 通信 ， 架 构 清 晰 ， 并 且 包 含 各 种 中 间 件 接口 ， 可 
以 灵活 地 完成 各 种 需求 。Scrapy 的 整体 架构 如 图 22-1 所 示 。 


( Scheduler ) 


Scheduler 
Middlewares  - 


Requests 


—-— —1 Downloader ` 


Downloader 
Middlewares 


Item 
Pipeline 
Requests 


F Spider 
items Middlewares Responses 
Spiders 


图 22-1 Scrapy 的 运行 机 制 
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Scrapy 的 运行 机 制 大 概 如 下 : 


CD 引擎 从 调度 器 中 取出 一 个 URL (CURL) ， 用 于 接 下 来 的 抓 取 。 
(2) 引擎 把 URL 封装 成 请 求 (Request) 传 给 下 载 句 ， 下 载 右 把 资源 下 载 后 封装 成 应 答 包 


(Response) . 


(3) EEREN Response. 
(A) 知 解 析出 实体 tem) ， 则 区 给 实体 管道 进行 进一步 的 处 理 。 
(50 若 解 析出 的 是 URL， 则 把 URL 交 给 Scheduler 等 待 抓 取 。 


Scrapy 的 运行 离 不 开 各 个 组 件 相互 合作 和 调度 。 结 合 图 22-1， 各 个 组 件 的 功能 说 明 如 下 。 


引擎 (Scrapy Engine): 处 理 整个 系统 的 数据 流 ， 和 触发 事务 (框架 核心 )。 

调度 器 (Scheduler) 接受 引擎 发 过 来 的 请 求 ， 压 入 队列 中 ， 并 在 引擎 再 次 请 求 的 时 候 返 回 。 
FRÆ (Downloader): 用 于 下 载 网 页 内 容 ， 并 将 网 页 内 容 返 回 给 绵 蛛 (Scrapy 下 载 器 的 
运行 原理 是 基于 Twisted 框架 实现 的 ). 

KR (Spiders): 从 特定 的 网 页 中 提取 自己 需要 的 信息 ， 即 实体 (Item )。 也 可 以 从 中 提取 
出 URL, ik Scrapy 继续 抓 取 下 一 个 页 面 。 

项 目 管道 (Item Pipeline): 负责 处 理 爬 虫 从 网 页 中 抽取 的 实体 ， 主 要 的 功能 是 持久 化 实体 、 
验证 实体 的 有 效 性 、 清 除 不 需要 的 信息 。 当 页 面 被 卜 虫 解析 后 ， 将 被 发 送 到 项 目 管 道 ， 并 
经 过 几 个 特定 的 次 序 处 理 数 据 。 

下 载 器 中 间 件 (Downloader Middlewares ): 位 于 Scrapy 引 苑 和 下 载 器 之 间 的 框架 ， 处 理 引 
党 与 下 载 器 之 间 的 请 求 及 响应 。 

K X v E4 (Spider Middlewares ): 介 于 Scrapy 引擎 和 疏 忠 之 间 的 框架 ， 主 要 工作 是 处 理 
蜂 蛛 的 响应 输入 和 请 求 输出 。 

调度 中 间 件 (Scheduler Middewares ): 介 于 Scrapy 引 敬 和 调度 器 之 间 的 中 间 件 ， 用 于 处 理 
从 Scrapy 引擎 发 送 到 调度 器 的 请 求 和 响应 ， 


22.1.3 安装 Scrapy 


在 安装 Scrapy 之 有 前 ， 需 要 先 安装 Twisted。Twisted 可 以 使 用 pip 安装 ， 但 使 用 pip 安装 很 容易 出 
现 错误 ， 建 议 下 载 Twisted 的 whl 文件 安装 www lfd.uci.edu/-gohlke/pythonlibs/) ， 如 图 22-2 所 示 。 


Twisted, an event-driven networking engine. 
Twisted-18.9.0-cp27-cp2/m-win32.whl 
Twisted-18.9.0-cp27-cp2/m-win amd64.whl 
Iwisted-18.9.0-cp34-cp34m-win32.whl 
Twisted-18.9.0-cp34-cp34m-win amd64.whl 
Twisted-18.9.0-cp35-cp35m-win32.whl 


Twisted-18.9.0-cp35-cp35m-win amd64.whl 
Twisted-18.9.0-cp36-cp36m-win32.whl 
Twisted-18.9.0-cp36-cp36m-win amd64.whl 
Twisted-18.9.0-cp37-cp37m-win32.whl 
Twisted-18.9.0-cp37-cp37m-win amd64.whl 


图 22-2. Twisted 版 本 信息 
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如 Twisted 口 18.9.0Dcp37Dcp37mDwin amd64.whl, cp37 是 Python 3.7 版 本 ，amd64 代表 64 位 
系统 。 下 载 文件 后 保存 在 EE 盘 ， 然 后 打开 CMD 窗口 ， 将 路 径 切 换 到 王 盘 ， 输 入 安装 指令 : 


E:\>pip install TwistedB18.9.0B8cp37Blcp37mBlwin amd64.whl 


完成 Twisted 安装 后 ， 可 使 用 pip 安装 Scrapy， 安 装 指 令 如 下 : 


pip install Scrapy 


值得 注意 的 是 ， 最 好 先 安 装 Twisted， 再 安装 Scrapy。 如 果 直 接 安 装 Scrapy， 在 安装 过 程 中 就 
会 出 现 报 错 信息 i: 

building 'twisted.test.raiser' extension 

error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual 
C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools 

如 果 出 现 上 述 报错 信息 ， 用 户 先 安装 Twisted， 再 重新 安装 Scrapy 即 可 解决 。 完 成 Scrapy 的 
安装 后 ， 打 开 CMD 窗口 并 进入 Python 交互 式 命 令 行 ， 输 入 以 下 代码 检测 是 否 安 装 成 功 : 


>>> import scrapy 
>>> scrapy. version 
"doncc 


22.2 Scrapy E18 JE Dl 


本 节 通 过 一 个 简单 的 项 目 讲解 如 何 使 用 Scrapy 实现 爬虫 开发 ， 以 百度 知道 的 问题 列表 为 例 。 
在 浏览 圳 中 打开 网 页 (https:Wzhidao.baidu.conylist?cid=110) 和 开发 者 工具 ， 碍 找 并 分 析 网 页 数据 
的 生成 方式 。 最 终 在 Doc 标签 下 找到 数据 所 在 位 置 ， 分 析 得 知 每 条 数据 在 标签 <a> 中 ， 而 标签 <a 
WE 在 标签 <div> 中 ，class 属性 的 值 为 question-title， 如 图 22-3 所 示 。 


Sources — Metwork . Performance — Memory Application Security Audits 
jroup by frame Preserve log Disable cache Offline Online Y 


Hide data URLs All | XHR J&S CSS Img Media Font [Ez WS Manifest Other 


|* NE je view esp onse pone, Timing 


| | list?cidz 110 es 1 «ai v cl a "que: stion-ti titl E 
B52 zhidao parE com/guestion/556829188388721764.html2fr-glquick&entry-gb list default&is force answer-8" class-"title-link" target="_blank"> 
|18 53 有 


| 1854| £/a? 


图 22-3 ”分 析 百 度 知道 问题 列表 


根据 简单 分 析 ， 使 用 Scrapy 完成 上 述 开 发 需求 。 首 先 创建 Scrapy WH, Æ CDM (终端 ) F 
切换 到 王 盘 路 径 ， 本 项 目 以 “baidu” 为 项 目 名 称 ， 创 建 项 目 俞 令 如 下 : 


scrapy startproject baidu 


创建 项 目 后 , 可 在 EE 盘 找 到 “baidu” 文 件 夹 , 在 Pychram 下 打开 该 文件 夹 ,目录 结构 如 图 22-4 
BI 
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Project M 
baidu E:\baidu 
v baidu 


wv spiders 
a Init .py 
a init .py 


a items.py 
a middlewares.py 
a pipelines.py 
a settings.py 
Š scrapy.cfg 
>» llll External Libraries 


图 22-4 Scrapy 目录 结构 
项 目 文件 说 明 如 下 。 
€ spiders (文件 夹 ) 编写 爬虫 规则 ， 实 现 数据 爬 取 和 数据 清洗 处 理 。 
items.py: 数据 定义 和 实例 化 ， 用 于 寄存 清洗 后 的 数据 。 
e middlewares.py: 是 介 于 Scrapy 的 request/response 处 理 的 钩子 框架 ， 用 于 全 局 修改 Scrapy 
request 和 response 的 一 个 轻 量 、 底 层 的 系统 。 
pipelines.py: 执行 保存 数据 的 操作 ， 数 据 对 象 来 源 于 items.py。 
setting.py: 整个 框架 配置 文件 。 
e scrapy.cfg: 项 目 部 着 文件 。 


使 用 框架 开发 一 般 都 有 功能 实现 次 序 ， 但 次 序 并 不 是 固定 不 变 的 ， 很 大 程度 上 痢 根 据 开 发 人 
员 的 编程 习惯 来 决定 。Scrapy 的 常用 功能 实现 次 序 如 下 。 
setting.py: 主要 配置 假 虫 信息 ， 如 请 求 头 、 中 间 件 和 延 时 设置 等 。 
items.py: 定义 存储 数据 对 人 各 ,主要 衔接 spiders (文件 夹 ) 和 pipelines.py。 
pipelines.py: 数据 存储 ， 数 据 格 式 以 字典 形式 表现 ， 字 典 的 键 是 items.py 定义 的 变量 ， 
spiders (文件 夹 ); 编写 疏 虫 规则 。 


下 面 按 照 上 述 实 现 次 序 讲解 功能 代码 的 编写 。 
步骤 014 打开 settingpy, 发 现 文件 大 部 分 内 容 已 被 注释 , 注释 内 容 有 配置 代码 、 配 置 说 明和 
相应 的 官方 文档 链接 。 本 项 目 只 需 设 置 Item Pipeline 和 请 求 头 即 可 , 找到 以 下 代码 , 将 其 注释 去 掉 ， 
其 余 代 码 不 做 任何 操作 : 


# 指定 数据 入 库 的 函数 
ITEM PIPELINES = | 
'baidu.pipelines.BaiduPipeline': 300, 
} 
# 设置 请 求 头 
DEFAULT REQUEST HEADERS = 二 
'Accept': 'text/html,application/xhtml-«xml,application/xml; 
uU d AE*Iq gu uu 
"ACCepL Language: "enm. 
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) 

配置 信息 说 明 如 下 : 

e ITEM PIPELINES 用 于 激活 pipelines.py 文件 里 的 BaiduPipeline 类 ， 作 用 是 告诉 Scrapy 在 
执行 数据 存储 的 时 候 使 用 哪个 类 对 钊 实现 存储 .BaiduPipeline 是 Scrapy 项 目 自动 生成 的 类 ， 
开发 者 也 可 根据 实际 需求 添加 或 删除 配置 内 容 。 

e DEFAULT REQUEST HEADERS 用 于 激活 请 求 头 ， 当 Scrapy 向 网 站 发 送 请 求 的 时 候 ， 如 
果 该 请 求 没有 指明 HP 38 s 青 求 头 内 容 Z, WARNER 配置 作为 这 个 请 求 的 请 AA. 


步骤 02 4 打开 items.py; Scrapy 已 生成 相关 的 代码 及 文档 说 明 ， 开 发 者 只 需 在 此 基础 上 定义 
类 属性 即 可 。 本 项 目 定义 类 属性 TitleName , 代表 问题 列表 中 每 条 问题 的 内 容 。scrapyFieldO0 是 Scrapy 
的 特有 对 象 , 其 主要 作用 是 处 理 并 兼容 不 同 的 数据 格 陈 , 开发 者 在 定义 关 属 性 时 无 顷 考 虑 扑 取 数据 
的 数据 格式 ，Scrapy 会 对 数据 格式 做 相应 处 理 。 实 现代 码 如 下 : 


import scrapy 
class BaiduItem(scrapy.Item): 
i define the fields for your item here like: 
i name = scrapy.Field() 
TitleName - scrapy.Field() 
pass 


步骤 03 Á 打开 pipelines.py, Scrapy 已 生成 类 BaiduPipeline 4HTR2& 68H, 2$ BaiduPipeline 就 
是 setting.py Bic & ITEM PIPELINES 的 内 容 。 数据 存储 主要 在 类 方法 process item0O 中 执行 ,本 项 目 
以 将 数据 存储 在 文本 文档 为 例 进行 介绍 ， 代 码 如 下 : 


class BaiduPipeline (object): 
def process item(self, item, spider): 

# 参数 item 是 items .py 的 对 象 

# 以 下 代码 自行 编写 

file = open('E:\\data.txt', *'a*) 

for x in item['TitleName']: 
value = r-replace("Xn", "*" 
file-wrrtelvaluc + "VreXn") 

file.closetl) 

# 以 上 代码 自行 编写 

# return 主要 输出 item 内 容 ， 帮 不 需要 ， 则 可 注释 抒 


return item 
JROA À spiders ( 文件 夹 ) 用 于 编写 从 中 规则 ， 可 以 在 已 有 的 init py 文件 中 编写 具体 的 
爬虫 规则 , 但 实际 开发 可 能 有 多 个 爬虫 规则 ,所 以 建议 一 个 爬虫 规则 用 一 个 文件 表示 ， 这 样 便 于 维 
护 和 管理 。 回 到 项 目 中 ， 我 们 创建 文件 Spider spiders-py， 代 码 如 下 : 


# 导入 items.py 的 BaiduItem， 存 放 疏 取 数据 
from baidu.items import BaiduItem 

4 Scrapy 自 带 数据 清洗 模块 

from scrapy.selector import Selector 
# Scrapy 搜索 引擎 

from scrapy.spider import Spider 

# 爬虫 规则 ， 一 个 谎 虫 以 类 为 实现 对 象 


class Baispider (Spider): 
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# 属性 name 必须 设置 ， 而 且 是 唯一 命名 的 ， 用 于 运行 朴 果 
name = "Baidu know" 
# 设置 允许 访问 域名 
allowed domains = ["bazrdu-com"] 
# 设置 URL 
start urls = | 
"https://zhidao.baidu.com/lrst?cid-T10", 
"https://zhrdao.bardu.com/Tlist?cid-T10102" 
] 
# HE parse 处 理 啊 应 内 容 ， 国 数 名 不 能 更 改 。 
der parse (Seli PCSDOHS) 
# 将 啊 应 内 容 生 成 Selector， 用 于 数据 清洗 
二 
items — T] 
+ 4E X Baidultem 对 象 
item = BaiduIltem() 
title = sel.xpath('//div[8class-"question-ti1it 1e" | 
/a/text()'). extract(í) 
ior i in tille: 
items.append (1) 
item[ "TitleName'|] = items 
return item 


上 述 代码 说 明 如 下 : 
C) 疏 虫 规则 以 类 为 实现 单位 ， 并 继 素 父 类 Spider, Spider 是 Scrapy 的 爬虫 引擎 之 一 。 
(2) 属性 name 不 能 为 室 ， 其 是 程序 运行 入 口 ， 如 果 有 多 个 爬虫 规则 ， 那 么 每 个 规则 的 属性 
name REER, FI) Scrapy 无 法 识别 执行 哪 一 个 息 虫 规则 。 
(3) allowed domains 是 设置 允许 访问 的 域名 ， 如 果 为 空 ， 就 说 明 对 域名 不 做 访问 限制 。 
(4) start urls H1 T Ye &UIENON S&H UREL， 程 序 运行 时 会 对 start urls 38 Jj Ib P8. 
(5) 类 方法 parseO H T AER bd sh Bgm wz PE, luem s SEX Spider， 方 法 名 就 不 能 更 改 。 


完成 上 述 功 能 开发 后 ， 使 用 CMD (Aim) 局 动 程序 ， 将 路 径 切 换 到 EN adu, Zmeu fF: 


E:Mbaidu»scrapy crawl Baidu know 


scrapy crawl 是 局 动 Scrapy AmA IT, Baidu know 是 Spider spiders.py 文件 的 Baispider 类 属 
性 name。 程 序 运 行 结果 如 图 22-$ 所 示 。 

从 运行 结果 看 出 ， 程 序 对 start_urls 的 URL 通 历 访问 ， 并 返回 None 对 象 。 因 为 对 pipelines.py 
的 return item 做 了 注释 人 处理， 如 果 去 挥 注释 ， 就 会 返回 扑 取 的 数据 内 容 。 程 序 运行 结束 后 ，Scrapy 
会 将 运行 信息 返回 ， 开 发 人 员 可 根据 信息 调整 setting.py 的 并 发 数 和 延 时 配置 。 

Baispider 类 继承 目 父 类 Spider， 在 Scrapy P, X E Ue nifi Hj Spider 类 足以 胜任 ， 如 果 要 有 把 
取 全 站 数据 而 且 具 有 一 定 规则 的 网 站 ，Spider 虽然 可 以 实现 ， 但 实现 过 程 相当 复杂 ， 这 时 我 们 需要 
更 强大 的 武 锅 CrawlSpider。 
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n P EEMLPRIEETE 
:i712-—11 lr?:48:17 [scrapy-core .engine] DEBUG: Gravwled <200>) GET https:AAz2hida 
.baidu.com rohots.txt» treferer: Hone? 
pAiF7-iZž-11i 17:48:17 [scrapy-core.-engine] DEBUG: Crawled <200) <GET https:srzhida 
ü.-baidu.comlistźcid=1i1b> referer: Mone + 
pAiF7-iZ2-11i 17:48:17 [scrapy-core.-engine] DEBUG: Crawled <200> <GET Ed EAE 
0- baidu.comlistžcid=“ilðitž+ referer: Monej 
2P017-iZ2-ii 17:48:17 i DEBUG: Scraped from <200 TEE PAIRE 
o- baidu.-comlistžcid=1i1lß> 
Hone 
pAiY-izżž-ii 17:48:17 Lscrapy-core.scraper] DEBUG: Scraped from <200 https :srzhida 
o. baidu.comlist?cid=110ð1ð2> 
Hone 
"d: san a 17:48:17 Lacrapy.core.enginel INFO: Closing spider 4finishedj 
2017?7-12-11 17:48:17 [scrapy-statscollectors] INFO: Dumping Scrapy stats: 
k" downloader- regquest_ bytes: 789. 

'dounloader^/request count': 3, 

‘downloaderArequest_method_countAGET”: 3., 

downloaderA/response_bytes’: 47129. 

‘downloaderAresponse_count’”: 3, 

'dovnloader^/response status count.^/2HH': 3, 

'finish reason’: finished’. 

*finish_time” =: datetime .datetimetz61i7, 12. 3 17, 7821063., 

' item scraped count’s 2, 

“log_countADEBUG”: 6. 

og_countAINFO: 7. 

PeESDPONSEeE_rFeceived_count’”: 3., 


sehedulerAdeoqueued’ : 2. 
sehedulerAdeoqueuedA/memory : 2 
EhedulerA /enoueued’ = £, 
sehedulerA enqueued/memory’ : 2, 
start_time’: datetime .datetimet2617,. i2. 11. 9. 48, 16, Srvbd446»+» 
201i 7-iZ2-ii 17:48:17 [scrapy.-core.engine] INFŪ: Spider closed <finished? 


图 22-5 Scrapy ja (Tft 
CrawlSpider H 47K ASŽ Spider, HAS Spider 的 全 部 属性 ， 并 有 目 身 的 独特 属性 。 


(C1) rules 是 Rule 对象 的 集合 ， 用 于 匹配 目标 网 站 并 排除 干扰 。 
(2) parse start url 用 于 爬 取 起 始 啊 应 ， 必 须要 返回 Item, Request 是 其 中 之 一 。 


以 上 述 项 目 为 例 ， 使 用 CrawlSpider YI EWER: 首先 在 spiders (文件 来) 下 创建 文件 
CrawlSpider spiders.py， 代 码 如 下 : 
+ 导入 items .py 的 BaiduItem， 存 放 有 扑 取 数据 


from baidu.items import BaiduItem 

# Scrapy 目 带 数据 清洗 模块 

from scrapy.selector import Selector 

# FA CrawlSpider 

from scrapy.contrib.spiders import CrawlSpider, Rule 
from scrapy.contrib.linkextractors import LinkExtractor 
EERI, AERUS 

class Baispider (CrawlSpider): 


# 属性 name MAE, TLE f. HTZ 


name — "Baidu" 
# 设置 允许 访问 域名 

allowed domains = ["baidu.com"] 
# 设置 URL 

start urls = | 


"https://zhidao.baidu.com/list?cid=110" 
] 
# 编写 爬 取 规则 
rules = Yt 
Rule (LinkExtractor(allow-('zhidao.baidu.com/question/', ), 
deny-(),), callback-'parse item'),) 
F ga T Ah FE pL Ai 


def parse rtem(selt, response: 
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sel =- Selector (response) 
items —- Lj 
item = BaiduIltem() 
title = sel.xpath['//fspan[Gclass- "ask Eritle "]/text()').extract () 
for i in Ertle: 
items.append (1i) 
rtem[|'TitleName'] 三 items 
return item 


上 述 代码 与 Spider spiders.py 的 实现 功能 是 一 致 的 ， 但 在 逻辑 处 理 上 完全 不 同 : 


(1) Spider spiders.py 继承 目 Spider, i217 7; ÆJ start urls 的 URL， 从 每 个 URL 获取 数 
据 ， 数 据 主要 来 源 于 start urls 的 URL. 
(2) CrawlSpider spiders.py 继承 目 CrawlSpider, start urls 的 URL 被 访问 后 ， 获 取 其 啊 应 内 
容 里 的 URL 列表 ， 再 根据 rules 规则 对 得 到 的 URL 列表 进行 第 选 ， 选 出 所 有 符合 规则 的 URL， 并 
对 符合 规则 的 URL 调用 callback 所 指定 的 函数 进行 访问 和 处 理 。 
CrawlSpider 类 的 Rule 参数 说 明 如 下 。 


e allow: 满足 括号 中 的 值 会 被 提取 ， 如 果 为 空 ,就 全 部 匹配 ,支持 正则 表达 式 实 现 模糊 匹配 。 
e deny: 与 匹配 值 不 匹配 的 URL 不 提取 。 

e allowed domains: 会 被 提取 的 URL 的 domains, 

e deny domains: 一 定 不 会 被 提取 URL 的 domains, 

* callback: 指定 回调 函数 处 理 符合 入 选 规则 的 URL 的 响应 内 容 。 


从 运行 逻辑 分 析 ，CrawlSpider 朴 虫 更 适合 全 站 数据 爬 取 和 通用 让 虫 开 友 。 因 为 rules 是 Rule 
对 象 的 集合 ， 如 果 需 要 编写 多 个 规则 ,就 可 以 设置 多 个 Rule X R, callback 所 指定 的 函数 也 可 以 目 
行 命 名 。 相 对 Spider 来 说 ，CrawlSpider 在 使 用 上 较为 灵活 一 些 。 


Spiders 的 说 明 

Spider 是 定义 如 何 抓 取 某 个 网 站 (或 一 组 网 站 ) 的 类 ， 包 括 如 何 执行 抓 取 (访问 URL) 
以 及 如 何 从 页 面 中 提取 结构 化 数据 ( 抓 取 数据 ) 1&6) 3£ 36, Spider 是 开发 者 自 定义 的 类 ， 
用 于 为 特定 网 站 (在 某 些 情况 下 是 一 组 网 站 ) 抓 取 和 解析 页 面 。 

Spider 的 执行 周期 如 下 : 

(1) 抓 取 第 一 个 URL 的 初始 请 求 ， 然 后 指定 一 个 回调 函数 ， 从 请 求 的 响应 来 调用 回调 子 
数 ， 请 求 链接 通过 调用 start requests() 方 法 (该 方法 在 默认 情况 下 是 GET JA), parse 
方法 作为 回调 兄 数 处 理 请 求 链 接 返 回 的 请 求 结果 . 

(2) 在 回调 函数 中 ， 主 要 是 解析 响应 (网 页 ) 内 容 ， 并 将 解析 后 的 数据 存储 在 Item 对 象 
中 。 如 果 解 析 的 内 容 中 需要 产生 多 次 请 求 ， 就 可 将 URL 传递 给 Request 对 和 象 并 指定 菜 个 
回调 函数 ， 然 后 由 Scrapy 访问 下 载 ， 通 过 指定 的 回调 处 理 它 们 的 响应 。 

(3) 在 回调 函数 中 ， 通 常 使 用 选择 器 (也 可 以 使 用 BeautifulSoup. Ixml 等 第 三 方 库 ) f 
析 页 面 内 容 ， 并 将 解析 的 数据 存储 在 Item at $ v. 

最 后 ， 从 Spider 返回 的 Item 对 人 象 在 item pipeline 对 和 象 中 进行 数据 存储 
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提示 ( 续 ) 

Spider 的 种 类 如 下 。 

e scrapy.spiders.Spider: 最 简单 的 Spider 类 ， 其 他 的 Spider 也 继承 自 该 类 (包括 Scrapy 
其 他 定义 的 Spider 以 及 开发 者 自 定 义 的 Spider )。 它 不 提供 任何 特殊 的 功能 ， 只 提供 一 
个 默认 的 start requests0 方 法 ， 请 求 从 start urls 开始 ，Spider 发 送 请 求 ， 并 使 用 函数 
parse 处 理 每 个 响应 内 容 。 
scrapy.spiders.CrawlSpider: 这 是 抓 取 第 规 网 站 最 常用 的 Spider， 因 其 提供 了 一 个 方便 
的 机 制 ， 可 通过 定义 一 组 规则 来 跟踪 URL， 适 合 全 站 数据 慌 取 和 通用 爬虫 开发 。 除 了 
拥有 scrapy.spiders.Spider 全 部 属性 之 外 ， 还 有 特定 属性 rules 和 parse start url 方法 。 
scrapy.spiders.XMLFeedSpider: f] RRP XML 形式 的 网 页 内 容 , 通过 某 个 指定 的 节点 
来 遍历 。 可 使 用 iternodes、xml 和 html 三 种 形式 的 迭代 器 ， 不 过 当 内 容 比 较 多 的 时 候 ， 
推荐 使 用 iternodes， 可 以 节省 内 存 、 提 升 性 能 ， 不 需要 将 整个 DOM 加 载 到 内 存 中 再 
解析 ， 而 使 用 html 可 以 处 理 XML 有 格式 错误 的 内 容 。 
scrapy.spiders.CSVFeedSpider: 与 XMLFeedSpider 非常 相似 ， 其 遍历 CSV 行 数 ， 在 每 
个 迭代 中 被 调用 的 方法 是 parse. row(). 
scrapy.spiders.SitemapSpider: SitemapSpider 通过 使 用 Sitemaps 发 现 网 址 并 抓 取 网 站 ， 
X BRE Sitemap 和 从 robots.txt P IL Sitemap P] hb, ix XJ X X JH T 48 8| ETE 
Ao i3JU-T ROBORE M 3b85 AE] de 3$ URL. 

一 般 来 说 ， 目 前 大 多 数 网 站 主要 以 HTML 7) i., Spiders 开发 是 以 Spider 和 CrawlSpider 

为 主 ， 本 书 主要 以 这 两 者 为 讲述 对 象 。 


223 Spider 的 编写 


从 22.2 WARI, Spider spiders.py 爬虫 规则 的 请 求 方式 都 是 GET 请 求 ， 但 在 实际 开发 
H, 我 们 还 需要 使 用 POST 请 求 , 那么 如 何在 Spider 中 实现 POST 请 求 呢 ? 下 面 我 们 来 看 看 具体 的 
实现 方法 。 

首先 创建 一 个 新 的 项 目 ， 命 名 为 mySpider: 


scrapy startproject mySpider 


在 项 目 里 的 spiders CUF) 中 创建 文件 post spiders.py， 代 码 如 下 : 


from scrapy.selector import Selector 
from scrapy.spider import Spider 
import scrapy 

class Baispider (Spider): 

name — "Post spider" 

allowed domains = [] 

Sbarb uris — f 

站 0 0 1750007", 

] 

t ERAO—— EY start requests 方法 
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# scrapy.FormRequest 是 POST 方式 ，formdata 是 POST 274, callback 回调 函数 


def start 


roguesrtsmsebrb 


return [scrapy .-FormRequest({ 
self.start urls[0], 


formdata- 


("Python" - "Jg rb 3T n p 


cadllbuck-sctr-mypsoLbj] 


def mypsot (self, response): 
data = Selector(response).xpath('//p/text()').extract () [0] 
print (data) 


整个 项 目 mySpider 只 添加 上 述 代 人 码 和 了 文件， 其余 文 件 不 做 修改 和 添加 。 为 了 方便 测试 代码 ， 


我 们 在 本 地 使 用 


Flask 搭建 一 个 测试 系统 (Flask 安装 : pip install flask) ， 系 统 代码 如 下 : 


from flask import Flask, request 

app ~ ElaskEl name Jj 

# app.route 设置 URL 路 径 ，methods 是 请 求 方式 
# hello world 视图 函数 

fapp-route{("/", methods-['POST', 'GET']) 


def hello 


world(í(): 


E ABEK. GEB IRIS A: 
# POST 请 求 
if request.method -- 'POST': 
return "This is POSL, your post data is " + reguest-form| -Eython' ] 
# GET 请 求 


else: 


return 'Hello World!' 
# 系统 司 动 运行 


1f name 


== X» umain '- 


app-run(t) 
将 系统 代码 保存 在 system.py 文件 中 , 然后 运行 文件 即 可 局 动 系统 。 系统 局 动 后 , 运行 mySpider 


项 目 ， 运 行 结果 


可 以 看 到 ， 
代 但 是 一 致 的 ， 


如 图 22-6 所 示 。 


n 127.0.0.i:6023 ^ 
M1 =—12=12 18:18:58 lscrapy.core.eng1ine] DEBUG: Grawled 4484) GELI http:AAi27 .9. 
4.1:5BHHH^rohots.txt^ referer: Mone» 
17-—12-—12 18:18:58 [scrapy -doun loadermiddlewares.retry] DEBUG: Retrying <POST h 
ttp:zr127-0.0.1:50007> failed 1 times): [<twuisted. python .failure.Failure twiste 
d.internet.error.ConnectionDone: Connection was closed cleanly.»] 
Hi 12=—12 18:18:58 Lacrapy.core.engine l DEBUG: Crawled 4266009 POSIT n Ea MS 
.115000 referer: None» 
This is Fost .your post data is EEFE 
2017-12-12 18:18:58 [scrapy-core.-engine] INFO: Closing spider finished» 
2017-12-12 18:18:58 [scrapy-statscollectors] INFO: Dumping Scrapy stats: 
&' downloader exception_count”: 1., 

"down loader/exception_type_counttuisted.web._newc lient . ResponseNMeverReceived” : 

o 

' down loaders reguest_bytes": 817. 

'dowunloader^/request count': 3, 

downloaderArequest_method_ count/GEI”": 1, 

downloaderAreoquest_method_count/POST”: 2, 

'downloaderA/response_hytes’: 532., 

‘downloader/response_count’: 2, 

'dowunloader^/response status count^/2HH': 1. 

“downloader response_status_count cor : 1., 

‘finish_reason” : Finished”, 

'Ffinish time’: datetime .datetime 2017, 12, 12, 10, E. S58,. i1256981», 

' log_count/ DEBUG : 4, 


图 22-6 post spiders 运行 结果 


运行 结果 输出 了 “This is Post,your post data is EEF A” , 18 PRAI Flask 系统 


说 明 在 Scrapy 中 可 重 写 start requests 来 改写 初始 请 求 方式 。 
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一 个 完整 的 爬虫 会 将 POST 和 GET 请 求 相 互 交 错 使 用 ， 而 且 每 个 请 求 都 可 能 需要 特定 的 请 求 
头 和 Cookies. LJ mySpider 项 目 为 例 实现 上 述 功 能 需求 : 在 mySpider 项 目的 spiders (文件 来) 下 
新 建文 件 get post spiders.py， 代 但 如 下 : 


from scrapy.selector import Selector 
from scrapy.spider import Spider 
import scrapy 


class Baispider (Spider): 


name — "Get Post spider" 
allowed domains - [] 
start urls = | 


"hEtpogwde1.0-0.1:8000y*. 
] 
# 定义 请 求 头 和 Cookies， 两 者 皆 以 字典 形式 表示 
headers = ['User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/41.0',) 
cookies = T1] 


# 处 理 第 一 次 GET 请 求 的 响应 内 容 ，return 用 于 发 送 第 二 次 POST 请 求 
det parse{self, response): 
data = Selector(response).xpath('//p/text()').extract () [0] 
print (data) 
return [scrapy -FormRequest({ 
self.start urls[ūl, 
cookies-self.cookies, 
headers-self.headers, 
formdata-["Python": "fEmJFPE"), 
callback-sSrt.mypsot)] 


# 处 理 第 二 次 POST 请 求 的 响应 内 容 ，return 用 于 发 送 第 三 次 GET 请 求 
det mypsot{self, responsey: 
data = Selector(response).xpath('//p/text()').extract () [0] 
print (data) 
return scrapy.Request(self.start urls[0], cookies-self.cookies, 
headers-selIr.heoeaders, callback self myget) 


# 处 理 第 三 次 GET 请 求 的 响应 内 容 

derf myget selik, response: 
data = Selector(response).xpath('//p/text()').extract () [0] 
print (data) 


从 上 述 代 码 分 析 三 次 请 求 : 

第 一 次 GET 请 求 是 Scrapy 默认 start requests 实现 的 ， 回 调 函 数 是 parse. 

第 二 次 POST 请 求 是 在 函数 parse 处 理 完 第 一 次 请 求 的 响应 内 容 后 ， 通 过 etum 发 送 第 二 次 请 
求 ， 并 设置 请 求 头 和 Cookies. PNA RUGE mypsot. 

第 三 次 GET 请 求 是 在 函数 mypsot 处 理 完 第 二 次 请 求 的 啊 应 内 容 后 , 通过 return 发 送 第 三 次 请 
求 ， 并 设置 请 求 头 和 Cookies. PA RŽ myget。 


打开 CMD 窗口， 运行 get post spiders.py 的 讨 虫 规则 ， 运 行 结果 如 图 22-7 所 示 。 
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2H17-12-13 W97:47:B65 [scrapyu.core.enginel INFO: Spider opened 

"45s Pn Ln CRM PL HELME ETE UIITIE E 4E HIERCIIERB DERE EB INFO: Crawled H pages tat H pag 
esAmin?,. scraped A items at O items/min? 

2017-12-13 9:47:06 [scrapy.extensions.telnet] DEBUG: Telnet console listening o 
n 127.0.0.1i:6023 

2017-12-13 人 9 47:06 LT DEBUG: Crawled <“d404>， <GET http:77127.0. 
DP referer: Hone» 

2p1i17-1i2-13 B9:47:ġ06 Lescrapy.-.core.engine] DEBUG: Crauled 20H? <GEI http:77127.0. 
dA Creferer: Mone» 


Hello World?’ 


2017-12-13 09:47:06 [scrapy.core.engine] DEBUG: Crawled <200> <POST http:77/127.0 
.B8.1:5BB88^/» C€referer: http:77/127.0.0.1:50007> 

This is Post, your post data is EEFE 

PAGE Aa Ln EM EE HT EM EET LT e a TDEBUG: na T l PEE4HOEM a r a 
DE Creferer: http://127.8.8.1:588H8^/» 

Hello World? 

2017-12-13 09:47:07 [scrapy.core.engine] IER URE3I TID, 

"A n n MS PE A A [scrapy.statscollectors] INFO: Dumping Scrapy stats: 


图 22-7 get post spiders 运行 结果 


此 外 ，Spiders 中 的 CrawlSpider. XMLFeedSpider. CSVFeedSpider 和 SitemapSpider 都 继承 于 
父 类 Spider， 因 此 前 面 实现 的 功能 适用 于 Spiders 的 所 有 类 。 


22.4 Items 的 编写 


数据 抓 取 的 主要 目标 是 从 非 结 构 化 来 源 ( 通 瘦 是 网 页 ) 中 提取 结构 化 数据 。Scrapy 可 以 将 提 
取 的 数据 作为 Python 字典 返回 ,但 Python 字典 缺乏 结构 ， 字 — 典 的 键 会 在 输入 时 出 现 拼写 错误 或 者 
返回 数据 不 一 致 ， 因 此 ，Scrapy 提供 了 Items 对 象 ， 用 于 管理 和 规范 爬 取 数 据 ， 使 其 结构 规范 化 。 
Items 主要 存放 在 项 目 文件 items.py 中 ,每 个 Items 对 象 以 类 的 形式 声明 和 命名 , 类 属性 为 Items 
的 字段 ， 也 就 是 需要 存储 数据 的 元 数据 键 (metadata key) . Items 可 脱离 Scrapy 项 目 单 独 使 用 ， 
为 了 更 好 演练 ， 在 EE 盘 下 创建 文件 items.py， 人 代码 如 下 : 
import scrapy 
# Product 类 继承 目 Item 2$ 
class Productiscrapy.rtem): 
name — scrapy.Field() 
price = scrapy.Field() 
stock — scrapy.Field() 
# last updated 指明 了 该 字段 的 序列 化 函数 


中 


if name ==" main  ": 

product = Product í(name-'Desktop PC', price-1000) 

print (product) 

使 用 代码 定义 Product 类 ， 类 属性 name. price. stock 和 last updated 分 别人 代表 产品 名 称 、 价 
格 、 库 存 数 和 更 新 时 间 。Scrapy 声明 字段 无 顷 考 虑 其 数据 类 型 ， 统 一 以 scrapy.Field0 命 名 即 可 。 运 
ÍT items.py 文件 ， 输 出 结果 如 下 : 


['name"'- "Desktop PC*', "price': 1000} 
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除 此 之 外 ， 还 可 以 对 其 进行 读 取 和 判断 等 操作 。 代 码 如 下 : 
# 数据 存储 一 


product = Product í(name-'Desktop PC',price-1000) 
pront (product) 


# 数据 存储 二 
item = Producti) 
itemi name'] — Mac" 


item['price'] - 2000 

print (item) 
print(item.get('name', 'None!')) 
print(item.get('stock', 'None')) 
1 读 取 数据 内 容 二 ， 使 用 该 方法 读 取 ， ETE, 则 会 提示 keyerror 
print (item['name']) 

# print(rbem] "stock']) 

# 判断 是 否 存在 字段 ， 输 出 True 或 False 
print('name' in item) 

print ('stock' in item) 

# 获取 键 值 对 

print (item.keys()) 

print (item.items ()) 


22.5 Item Pipeline 的 编写 


= Spiders JE If] dm EX Items ZJ, In i ERAS] return (yield) 人 返回 Items 对 象 ， 这 时 会 
触发 Item Pipeline 对 Items 对 象 的 操作 。Item Pipeline 主要 存放 在 项 目 文 件 pipelines.py 中 ， 用 于 实 
现 数 据 存储 。 


22.5.1 用 MongoDB 实现 数据 入 库 


以 22.2 这 的 项 目 为 例 ， 我 们 将 数据 存储 介质 由 文本 文档 改 为 MongoDB，MongoDB 的 数据 库 
结构 信息 如 图 22-8 所 示 。 


a di Collections (2) 
2 scrapy db 


a i Indexes (1) 
Bad 


user 
: |» Functions 
> ™ Users 


图 22-8 MongoDB 数据 库 


息 如 下 。 


Ullr 


数据 库 人 
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(1) 数据 库 所 在 服务 器 的 IP 地 址 : localhost. 
(2) 数据 库 端口 : 27017。 

(3) 数据 库 名 : test 

(4) Collection 名 称 : scrapy db。 


将 数据 库 信 息 写 入 配置 文件 setting.py， 在 setting.py 中 添加 以 下 代码 : 


ITEM PLPFELINES = | 
'baidu.pipelines.BaiduPipeline': 300, 


} 

# 数据 库 IP 

MONGODB SERVER = "localhost" 

# 端口 

MONGODB PORT = 27017 

# Database 名 称 

MONGODB DB = "test" 

# Collection 和 名称 

MONGODB COLLECTION = "scrapy db" 


完成 了 数据 库 信 息 的 配置 ， 接 大 编写 Item Pipeline 功能 代码 ，pipelines.py 的 代码 如 下 : 


# 导入 pymongo 
from pymongo import MongoClient 
# 导入 setting 配置 信息 


from scrapy.conf import settings 


class BaiduPipeline (object): 
def init (šelf): 
# 连接 数据 库 
connection - MongoClient ( 
settings ['MONGODB SERVER'], 
settings['MONGODB PORT'] 
) 
db — connection[settings['MONGODB DB']] 
self.collection - db[settings['MONGODB COLLECTION']] 


der process vrem[selr, item, Spider): 
# 入 库 处 理 
Self.collectrion.inserbtdictiitom)) 
return item 
以 22.2 节 的 Spider spiders.py JE tii mis fT $T. FEARR PE. i 22-9 所 示 。 
从 入 库 结 果 看 到 ， 生 成 了 两 条 文档 ， 每 条 文档 对 应 Spider spiders.py "P start urls 的 数量 ;每 
条 URL 有 30 条 数据 ， 也 符合 字段 TitleName 的 数据 量 。 从 代码 分 析 ， 在 类 BaiduPipeline 的 初始 
( init 2 函数 中 实现 数据 库 连 接 功 能 ， 在 函数 process item 中 实现 数据 入 库 。 
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4 ŒE MyMongodb (3) 
i System 
a E test MiMonzodb Œ| localhost:27017 


$ ab. gzetCollection( scrapy ''*X 


^w Collections (2) ldb.getCollection('scrapy db' 
4 scrapy db 
ad di Indexes (1) scrapy db |i) 0.003 sec. 
— Add. 
user 
> j& Functions 


> |J Users 


Key Value 
4 &3 (1) Objectid("5a30e08d92895020a842fb96") | 2 fields ) 
ad ObjectId(" 5a30e08d9289e020a842fb596") 
. L TitleName [ 30 elements ] 
4 Ey (2) Objectid(5a30e08d9289e020a8421b597") ( 2 fields ) 
ad ObjectId(" 5a30e08d9289e020a8421b597") 
| [£3 TitleName [ 30 elements ] 


几 22-9 MongoDB 入 库 结果 


225.2 用 SQLAlchemy 实现 数据 入 库 


上 一 节 介 绍 了 MongoDB 入 库 ， 咎 要 使 用 SQLAlchemy 实现 数据 入 库 ， 实 现 方 式 大 致 相同 。 同 
样 以 22.2 节 的 项 目 为 例 ， 以 MySQL 数据 库 为 存储 对 象 ，MySQL 数据 库 信 息 如 下 : 


(1) 数据 库 所 在 服务 器 的 IP 地 址 : localhost. 
(2) 数据 库 用 户 : root. 

G) 数据 库 密 但 : 1234. 

(4) 数据 库 名 : test. 


将 数据 库 信 息 写 入 配置 文件 setting.py, TE setting.py 中 添加 代码 如 下 : 


# SQLAlchemy 连接 数据 库 

MYSQL CONNECTION = 'mysql-«pymysql://root:1234810calhost/test?charset-utfS8' 
编写 Item Pipeline 功能 代码 ，pipelines .py 的 代码 如 下 : 

# FA SQLAlchemy 

from sqlalchemy import * 

from sqlalchemy.orm import sessionmaker 

from sqlalchemy.ext.declarative import declarative base 

# 导入 setting 配置 信息 


from scrapy.conf import settings 


# 定义 映射 类 

Base = declarative baset) 

class scrapy db (Basel): 
tablename = SCrapy db 
id = Column(Integer(), primary key-True) 
TitleName - Column (String (200)) 


class BaiduPipeline (object): 
def init — (sel): 

# 初始 化 ， 连 接 数 据 库 
conntion = settings['MYSQL CONNECTION'] 
engine — create engrine(conntron, ECHO False, pool size- 2000) 
DBSession = sessionmaker (bind-engine) 
self.SQLsession = DBSession() 
# 创建 数据 表 


Base.metadata.create all(engine) 
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def process item(self, item, spider): 
# 入 库 处 理 
Serr.sonsessTOn.execute(scrapy db. table inserti. 
[I'TitleNamec'- ip for i rnm Ttem| "TrtleName" llY 
self.SQLsession.commit() 
return item 


以 22.2 节 的 Spider spiders.py 爬虫 规则 运行 程序 , 并 查看 数据 库 的 数据 信息 , 如 图 22-10 所 示 。 


^ QE —Hscrapy db @test (MyDB) - z& T 
= peas B&ż- Yms Eum H 


d TitleName ^ 
人 1 家 里 装 了 200M 的 电信 窝 帝 , 换 了 千 兆 电 兹 千 兆 路 由 器 千 兆 网 卡 ，| 
2 win7 打 开 文 件 时 候 打 不 开 , 提示 初始 化 过 程 中 出 错 ， 请 大 神 香 图 
3 高 级 英 府 ppt 写 样 做 


Ld 
€ 
v + 一 C © 和 1 9^ 喇 0 
SELECT * FROI 第 1 条 记录 (H 60 条 ) 于 第 1 页 


图 22-10 SQLAlchemy 入 库 结果 


从 图 22-10 得 知 ， 入 库 数据 量 和 使 用 MongoDB 入 库 的 数据 量 是 一 致 的 。 无 论 使 用 关系 式 数据 
库 还 是 非 关 系 式 数据 库 ， 数 据 入 库 逻 辑 都 相同 。 
根据 数据 入 库 迎 辑 总 结 Item Pipeline 编写 规则 如 下 : 


C1) 使 用 setting.py 配置 数据 库 信 息 。 数 据 库 信息 最 好 在 setting.py 中 配置 ， 这 符合 统一 规范 

(2) 对 pipelines.py 的 类 初始 化 C. init. ) 图 数 实现 数据 库 连 接 。 如 果 使 用 SQLAlchemy 入 
库 ， 那 么 还 需 创 建 映 射 类 映射 数据 表 。 

(3) 由 函数 process item 实现 数据 入 库 。 


22.6 Selectors 的 编写 


当 抓 取 网 页 时 ， 最 第 见 的 任务 是 从 HTML 源码 中 提取 数据 。Scrapy 提取 数据 有 一 套 机 制 ， 被 
称 作 选择 器 (Seletors) ， 通 过 特定 的 XPath 或 者 CSS 表达 式 来 选择 HTML 中 的 某 部 分 数据 。 当 
然 ，lxml 和 BeautifulSoup 也 可 以 在 Scrapy 中 担任 数据 清洗 的 角色 。 

Scrapy 选择 帮主 要 用 于 有 息 虫 规则 的 编写 。 以 22.2 WH] Spider spiders.py 爬虫 规则 为 例 进 行 介 绍 : 

# 导入 items .py J BaiduItem, FRUER Z 


from baidu.items import BaiduItem 

# Scrapy 自 带 数据 清洗 模块 

from scrapy.selector import Selector 
4 Scrapy 搜索 引擎 


from scrapy.spider import Spider 
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# 让 虫 规则 ， 一 个 让 虫 以 类 为 单位 


class Baispider (Spider): 


# 属性 name 必须 设置 ， 而 且 是 唯一 命名 的 ， 用 于 运行 爬虫 


name — "Baidu know" 

# 设置 允许 访问 域名 

allowed domains = ["b5ardu-com"] 
# 设置 URL 

start urls ~ f 


"https://zhidao.baidu.com/list?cid=110", 
"https://zhidao.baidu.com/list?cid=110102" 
] 
# HH parse 处 理 啊 应 内 容 ， 图 数 名 不 能 更 改 
def parseisoclr, response): 
# 将 啊 应 内 容 生 成 Selector， 用 于 数据 清洗 
二 国生 
items — [T] 
+ 4E X Baidultem 对 象 
item = BaiduIltem() 
title = sel.xpath('//div[8class-"question-title"] 
/a/text()'). extract() 
for a3 in Litle- 
items.append (1i) 
rtem['TitieName'] = items 
return item 


MERRIER, FEA EHE RU P. 


(1) from scrapy.selector import Selector: 导入 Selector 对 象 。 

(2) sel = Selector(response): 声明 Selector XR, JAHM AN RIRIA RP e 

(3) sel.xpath(XPath i&7X).extractO: 使 用 XPath 对 数据 进行 清洗 ， 方 法 extractO 将 数据 以 列表 
形式 返回 。 


XPath 是 一 门 用 来 在 XML 文件 中 选择 节点 的 语言 ,也 可 以 用 在 HTML 中 。CSS 是 一 门将 HTML 
文档 样式 化 的 语言 ， 选 择 器 由 它 定义 ， 并 与 特定 HTML 元 素 的 样式 相关 。 在 两 者 的 使 用 上 ， 大 部 
分 开发 人 员 偏 向 于 XPath。 选 择 器 主要 掌握 XPath 或 者 CSS 语法 编写 规则 ， 本 书 以 XPath 语法 为 
讲述 重点 。 

XPath 使 用 路 径 表 达 式 来 选取 XML 文档 中 的 节点 或 节点 集 ， 节 点 是 通过 沿 着 路 往 (path) 或 
者 步 Csteps) 来 选取 的 ， 使 用 XPath 获取 数据 主要 是 找到 数据 所 在 的 路 径 。 示 例如 下 : 


«html» 
«head» 
«base href-'http://example.com/' /» 
«title»Example website«c/title-» 
«/head» 
«body» 
«div id-'images'» 
«a href-'imagel.html'»Name: My image 1 <br/> 
«img src-'imagel thumb.jpg'/»«/a» 
«a href-'image2.html'»Name: My image 2 <br/> 
«img src-'image2 thumb.jpg'/»«/a» 
«a href-'image3.html'»Name: My image 3 <br/> 
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«img src-'image3 thumb.jpg'/»«/a» 
<a href-'image4.html'»Name: My image 4 <br/> 
«img src-'image4 thumb.jpg'/»«/a» 
«a href-'image5.html'»Name: My image 5 <br/> 
«img src-'image5 thumb.jpg'/»«/a» 
«/div» 
«/body» 
</html> 


根据 上 述 例子 获取 标签 <a>，href 属性 为 imagel.html 的 内 容 ，XPath 语法 如 下 

xpath('//div[8id-"images"]/a[8href-"imagel.html]"/text()').extract() 
或 者 : 

xpath('//a[8href-"imagel.html]"/text()').extract () 


对 于 上 述 两 种 不 同 的 定位 方法 ， 说 明 如 下 : 
COD 第 一 种 方法 是 因为 标签 <a> 骨 套 在 <div> 中 ， 所 以 先 通 过 //div[(@id="images"] 对 <div> 定 位 ， 
在 已 定位 <div> 的 基础 上 添加 / a[|(Qhref-"imagel.html]; 说 明 先 得 找 <div>， 有 再 查找 <div> 里 面 的 <a>。 
(20 第 二 种 方法 是 因为 标签 <a> 的 href 属性 为 imagel.html， 在 整 段 HTML 中 具有 唯一 性 ， 所 
以 直接 对 标签 <a> 定 位 即 可 。 
上 述 例子 使 用 “//”“/” 和 “(@” 这 类 特殊 特写 ， 这 是 XPath HIERAR, HHJ XPath 路 
径 表 达 式 如 表 22-1 所 示 。 
表 22-1 XPath 路 径 表 达 式 


PARS TI Ea 3o HX 


D ——— j 

— 从 匹配 选择 的 当前 节点 选择 文档 中 的 节点 ， 而 不 考虑 它们 的 位 置 

一 — 节点 

CE 

除了 路 径 表 达 式 外 ，XPath 的 方 括号 〈[]) TRERn OHokf&rix T REB ise OS A 
个 指定 值 的 节点 ) 。 简 单 地 说 ， 方 括号 中 可 编写 标签 的 特性 ， 从 而 精确 地 找 出 所 需 的 数据 ， 如 表 
22-2 所 示 。 


Ak 22-2 ”路径 表 达 式 及 结果 
路 径 表 达 式 结 
选取 属于 div 的 第 一 个 a 标签 
/div/a[last()] 选取 div 里 最 后 的 a 标签 


/div/a[lastO-1] 选取 div 里 倒数 第 二 个 a 标签 
/div/a[position()-3] 选取 div 前 两 个 a 标签 
/div/a[(@id!="imagel.html"] 选取 div 里 属性 id 不 为 imagel.html 的 a 标签 
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XPath 的 定位 与 Windows 系统 的 路 径 相 同 ， 但 计算 机 上 同一 目录 不 允许 存在 同名 的 文件 或 文 
FR, m HTML 可 存在 这 种 情况 ， 为 了 解决 这 个 问题 ，XPath 可 对 标签 的 属性 进行 沛 选 ， 奢 有 多 
个 同时 符合 的 条 件 ， 则 会 获取 全 部 符合 条 件 的 数据 。 


227 X db bh X 


Jf m ER f TEBUBGESIZ UM. X33 um ENeHOCUF. IB. XCAROCHPAUEPHARGSISER. Scrapy 在 下 
载 图 片 ( 文 件 ) 时 提供 了 一 个 可 重用 的 Item Pipelines, $&73j Media Pipeline. Media Pipeline 分 为 Files 
Pipeline 和 Images Pipeline， 两 者 实现 的 功能 如 下 : 


(10 能 避免 重新 下 载 己 下 载 过 的 数据 。 
(20 可 以 指定 下 载 后 保存 的 路 径 。 


Images Pipeline 为 处 理 图 片 提供 了 人 额外 的 功能 : 


CD 将 所 有 下 载 的 图 片 格式 转换 成 普通 的 JPEG 并 使 用 RGB 颜色 模式 。 
(2) 生成 缩 略 图 。 
(3) 检查 图 片 的 宽度 和 高 度 ， 确 保 它们 满足 最 小 的 尺寸 限制 。 


Pipeline 同时 会 在 内 部 保存 一 个 被 调度 下 载 的 URL 列表 ， 然 后 将 包含 相同 媒体 的 链接 关联 到 
这 个 队列 上 来 ， 从 而 防止 重复 下 载 。 
使 用 Files Pipeline 实现 下 载 的 步骤 如 下 : 


步 又 014 在 Spider 中 爬 取 一 个 Item 后 ， 将 相应 的 文件 URL 放 入 file urls 字段 中 。 

302 Á Item 被 运 回 之 后 就 会 转交 给 Item Pipelineo 

步骤 03 Á 当 这 个 Item 到 达 FilesPipeline Hj, Æ file urls 字段 中 的 URL 列表 会 通过 标准 的 
Scrapy 调度 颖 和 下 载 絮 来 调度 下 载 ， 并 有 旦 优先 级 很 高 ， 在 抓 取 其 他 页 面前 就 被 处 理 。 而 这 个 Item 
会 一 直 在 这 个 Pipeline 中 被 锁定 ， 直 到 所 有 的 文件 下 载 完 成 。 

步骤 044 当 文 件 被 下 载 完 之 后 ， 结 果 会 被 赋值 给 另 一 个 fles 字段 。 这 个 字段 包含 一 个 关于 
下 载 文件 的 新 字典 列表 ， 比 如 下 载 路 径 、 源 地 址 、 文 件 校 验 码 。files 里 面 的 顺序 和 file url 的 顺序 
是 一 致 的 。 和 看 下载 出 销 ， 则 不 会 出 现在 这 个 files 中 。 


ImagesPipeline 的 使 用 跟 FilesPipeline 2245 & , 不 过 使 用 的 字段 名 不 一 样 ，imasge urls 用 于 保存 
RH ÉI URL 地 址 ， 使 用 ImagesPipeline 的 好 处 是 可 以 通过 配置 来 提供 额外 的 功能 ， 比 如 生成 文件 
缩 略 图 、 通 过 图 片 大 小 过 滤 需 要 下 载 的 图 片 等 。ImagesPipeline 使 用 Pillow 来 生成 缩 略 图 以 及 转换 
成 标准 的 JPEG/RGB 格式 。 

为 了 进一步 掌握 Scrapy 的 下 载 功 能 ， 分 别 找 出 三 个 文件 下 载 链接 : 

# 下 载 zip 压缩 包 

'"http://d.1.didiwl.com/ PYTHON zryycl.zip', 

# 下 载 图 片 


'https://www.python.org/static/img/python-logo.png', 
# 下 载 歌 曲 文件 
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"HECD:/IT23.732.1/60.130:/mp3-Sku. com/mds3/65558»5.mTa^ 


然后 创建 新 的 Scrapy 项 目 ， 名 为 scrapy download. Æ CMD 窗口 下 创建 scrapy download 项 


scrapy startproject scrapy download 


创建 项 目 后 ， 打 开 项 目的 setting.py 文件 ， 添 加 以 下 配置 代码 : 


ITEM PIPELINES = | 
'scrapy download.pipelines.ScrapyDownloadPipeline': 300, 


'scrapy download.pipelines.DownloadFlie': 1, 
} 
# 设置 保存 路 径 
FILES STORE — 'E:XXfullXX' 


# 设置 请 求 头 
DEFAULT REQUEST HEADERS = { 


'Accept': 'text/html,application/xhtml-«xml,application/xml; 
如 二 (0.9,*y*-g-0.8*, 
'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 


Gecko/20100101 Firefox/41.0' 
} 


setting.py 除了 配置 请 求 头 和 文件 保存 路 径 之 外 ， 还 对 ITEM PIPELINES 添加 了 DownloadFlie 
类 ， 当 程序 执行 数据 存储 的 时 候 ， 会 同时 执行 ScrapyDownloadPipeline 和 DownloadFlie 类 。 完 成 


setting.py 配置 后 ， 打 开 items.py， 定 义 Items 类 属性 ， 代 人 码 如 下 : 


import scrapy 
class ScrapyDownloadlItem(scrapy.Item): 
i define the fields for your item here like: 
i name = scrapy.Field() 
FileUrl = scrapy.Field() 
FileName = scrapy.Field() 
pass 


Items 定义 了 FileUrl 和 FileName， 分 别 是 文件 下 载 链接 和 文件 名 。 接 着 在 spiders (文件 夹 ) 
下 新 建 download spider.py XF, RIEU F: 


from scrapy download.items import ScrapyDownloadItem 
from scrapy.spider import Spider 
# 导入 setting.py 配置 信息 
from scrapy.conf import settings 
class downspider (Spider): 
name — "downspider" 
allowed domains = [] 
start urls = | 
"hEtpr,//124.2532.1/6.137/mp3.9ku.com/mJ1a/6558275.mTa"' 
] 


der parseisolb, response): 
# 下 载 方法 一 
f = open(settings['FILES STORE']-'MySong.m4a', 'wb') 
f.write(response.body) 
L.rcluoset) 


# 下 载 方法 二 
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item = ScrapyDownloadItem() 

item['FileName'] - ['PythonBook.zip', 'Python.jpg', 'MyMusic.m4a'] 

irem[*bsTeurl'|-]'hbtp://d-T.didiwl .com/PYTHON zryycl .zip', 
'https://www.python.org/static/img/python-logo.png', 
"hEtLpzy//124.232.176.137/mp3.S9ku. com/m4Ja/655825.mJ4a'" ] 

return item 


从 代码 中 看 到 ， 函 数 parse 实现 了 以 下 两 种 下 载 方式 : 


C1) 方法 一 是 通过 访问 文件 链接 得 到 链接 的 啊 应 内 容 (文件 的 字 市 法)，, 然后 将 啊 应 内 容 ( 文 
件 的 字 节 法 ) 写 入 文件 ， 这 种 下 载 方式 与 requests 库 下 载 文 件 一 致 。 
(2) 方法 二 是 将 文件 链接 和 文件 名 写 入 Items HR, 然后 将 Items 传 到 Item Pipeline 实现 文件 
下 载 。 
最 后 在 pipelines.py 实现 下 载 功能 ， 代 码 如 下 : 
from scrapy.pipelines.files import FilesPipeline 
from scrapy.pipelines.images import ImagesPipeline 
import scrapy 


# 导入 setting.py 配置 信息 


from scrapy.conf import settings 


class ScrapyDownloadPipeline (object): 
def process item(self, item, spider): 
# 入 库 处 理 等 操作 


return item 


# 下 载 功能 
class DownloadFlie(FilesPipeline): 
t E get media requests 
def get media requests (self, item, info): 
for index, url in enumerate(item['FileUrl']): 
yield scrapy.Request(url, meta-['name': item['FileName'][index]]) 


t X5 file path， 设 置 下 载 的 文件 名 

def file path(self, request, response-None, info-None): 
file name = settings['FILES STORE'] + (request.meta['name']) 
return file name 


代码 中 定义 了 类 ScrapyDownloadPipeline 和 DownloadFlie: 
e ScrapyDownloadPipeline 是 在 创建 项 目 时 自动 生成 的 ， 在 此 不 做 任何 处 理 ， 但 程序 依然 会 
执行 ， 因 为 已 被 setting.py 的 ITEM PIPELINES 激活 。 
e DownloadFlie 是 自 定 义 的 类 ， 继 承 自 父 类 FilesPipeline ( ImagesPipeline )， 然 后 将 父 类 的 方 
法 get media requests 和 file path 进行 重 写 。 
get media requests 的 说 明 如 下 : 
C1) 遍历 item['FileUi'] (三 个 文件 下 载 链接 ) ， 在 for 循环 中 使 用 enumerateO) 获 取 下 载 链 接 
所 在 列表 的 序号 。 
(2) 获取 序号 对 应 item['FileName'] 的 文件 名 。 
(3) scrapy.Request 设置 了 参数 meta， 访 参数 主要 给 图 数 file path 传递 文件 名 。 
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file path 的 说 明 如 下 : 


(1) settings['FILES STORE'] 用 于 获取 setting.py 的 路 径 配 置信 息 ，requestmeta[mame'] 用 于 获 
取 函 数 get media requests 的 scrapy.RequestO 中 的 meta 信息 。 
(2) 如 果 不 重 写 该 方法 ，Scrapy 就 会 目 行 定义 文件 名 ， 但 Scrapy 对 文件 命名 存在 一 定 缺 陷 ， 
比如 下 载 链接 不 规范 会 出 现 文 件 无 法 保存 的 情况 。 
在 CMD 窗口 运行 scrapy download 项 目 ， 程 序 运 行 完成 后 ， 得 看 文件 下 载 情 况 ， 如 图 22-11 
所 示 。 
e RERE > 本 地 磁盘 (E) » full 


名 称 大 小 类 型 


è| MyMusic.m4a 252 KB MPEG-4 EXE 


,9 | MySong.m4a 252 KB MPEG-4 3N 
加 | Pythonjpg 81 KB JPEG BẸ 
E$ PythonBook.zip 3,868 KB ”360 压缩 ZIP 文件 


rn 
228 Æ m/p 4 


Scrapy 4 — T 73 f ERA eR E If 2 73 AMHER, EEM HEATA 
信息 处 理 或 存储 历史 数据 等 一 系列 程序 中 。 其 最 初 是 为 了 页 面 抓 取 所 设计 的 ， 也 可 以 应 用 在 获取 
API 所 返回 的 数据 (例如 Amazon Associates Web Services) 或 者 通用 的 网 络 讨 虫 中 。 通 过 本 和 章 的 
学 习 ， 读 者 应 当 掌握 以 下 技能 ; 

1. Scrapy 的 运行 机 制 

(D 引擎 从 调度 器 中 取出 一 个 URL (URL) ， 用 于 接 下 来 的 抓 取 。 

(2) 引擎 把 URL 封装 成 请 求 (Request) 传 给 下 载 器 ， 下 载 吉 把 资源 下 载 后 封装 成 应 答 包 
(Response) . 

(3) EEREN Response. 

(4) 大 解析 出 实体 (Item) ， 则 区 给 实体 管道 进行 进一步 的 处 理 。 

(5) 奢 解 析出 的 是 URL， 则 把 URL 交 给 Scheduler 等 待 抓 取 。 

数据 抓 取 的 主要 目标 是 从 非 结构 化 来 源 (通常 是 网 页 ) 中 提取 结构 化 数据 。Serapy 可 以 将 提 
取 的 数据 作为 Python 字典 返回 ,但 Python 字典 缺乏 结构 ， 字 — 典 的 键 会 在 输入 时 出 现 拼 写 错误 或 者 
返回 数据 不 一 致 ， 因 此 ，Scrapy 提供 了 Items 对 象 ， 用 于 管理 和 规范 肘 取 数据 ， 使 其 结构 规范 化 。 

2. Item Pipeline 的 编写 规则 

= Spiders 爬 取 的 数据 存放 到 Items 之 后 ， 回 调 函 数 的 retum (yield) 返回 Items HR, mAh 
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发 Item Pipeline 对 Items 对 象 的 操作 ， 实 现 数据 存储 。Item Pipeline 的 编写 规则 如 下 : 


(1) setting.py 配置 数据 库 人 信息。 数据库 信息 最 好 在 setting.py 中 配置 ， 这 符合 统一 规范 化 开 

(2) 对 pipelines py 的 类 初始 化 C. init 2 函数 实现 数据 库 连 接 。 如 果 使 用 SQLAlchemy 入 
库 ， 还 需 创建 映射 类 映射 数据 表 。 

(3) 最 后 由 函数 process item 实现 数据 入 库 。 


当 抓 取 网 页 时 ， 最 常见 的 任务 是 从 HTML 源码 中 提取 数据 ，Scrapy 提取 数据 有 一 套 机 制 ， 被 
称 作 选择 器 (Seletors) ,通过 特定 的 XPath 或 者 CSS 表达 式 来 选择 HTML 中 的 某 部 分 数据 。 当 然 ， 
LXML 和 BeautifulSoup 也 可 以 在 Scrapy 中 担任 数据 清洗 的 角色 。 

3. 使 用 Files Pipeline 实现 下 载 的 步骤 

(1) 在 Spider 中 爬 取 一 个 Item 后 ， 将 相应 的 文件 URL 放 入 file urls 字段 中 。 

(2) Item 被 返回 之 后 就 会 转交 给 Item Pipeline. 

(3) 当 这 个 Item 到 达 FilesPipeline 时 ， 在 file urls 字段 中 的 URL 列表 会 通过 标准 的 Scrapy 
调度 器 和 下 载 器 来 调度 下 载 ， 并 且 优 先 级 很 高 ， 在 抓 取 其 他 页 面前 就 被 人 处理。 而 Item 会 一 直 在 这 
个 Pipeline 中 被 锁定 ， 直 到 所 有 的 文件 下 载 完成 。 

(4) 当 文 件 被 下 载 完 之 后 ， 结 果 会 被 赋值 给 另 一 个 fles 字段 。 这 个 字段 包含 一 个 天 于 下 载 文 
件 的 新 字典 列表 ， 比 如 下 载 路 符 、 源 地 址 、 文 件 校 验 码 。files 里 面 的 顺序 和 file url 的 顺序 是 一 致 
的 。 硅 下载 出 错 ， 则 不 会 出 现在 这 个 files 中 。 


Scrapy 扩展 开发 


23.4 žr Scrapy 中 间 件 


我 们 知道 ，Scrapy 框架 开发 候 虫 程序 必须 体 循 框 架 的 开发 规则 ， 使 息 虫 程序 的 开发 实现 了 规 
范 化 ， 提 高 了 开发 效率 。Scrapy 框架 的 强大 不 仅 于 此 ， 它 还 有 很 好 的 扩展 性 一 一 目 定 义 开 发 ， 可 
以 满足 开发 人 员 实 现 不 同 的 开发 需求 。 

Scrapy 的 目 定 义 开 发 主要 体现 在 Scrapy 的 中 间 件 上 ， 也 就 是 Scrapy 项 目 里 的 middlewares.py 
文件 ， 该 文件 里 以 类 的 形式 定义 中 间 件 ， 在 配置 文件 settings.py 注册 即 可 激活 中 间 件 ， 当 项 目 在 运 
行 的 时 候 ，Scrapy 会 目 动 调用 目 定 义 中 间 件 。 

创建 Scrapy 项 目的 时 候 ,middlewares.py 文件 默认 定义 了 两 个 中 国 件 ,分 别 是 SpiderMiddleware 
和 DownloaderMiddleware， 前 者 是 爬虫 中 间 件 ， 介 于 Scrapy 引擎 和 疏 虫 之 间 的 框 并 ， 主 要 工作 是 
处 理 爬 虫 的 啊 应 输入 和 请 求 输出 ; 后 者 是 下 载 硕 中 国 件 ， 位 于 Scrapy 5| ERI FP 2X; 88 2L IRI JE AS, 
处 理 引 擎 与 下 载 右 之 间 的 请 求 及 啊 应 。 两 者 的 工作 流程 如 下 : 


(1) Scrapy AERP yi AR HTTP 请 求 由 中 间 件 DownloaderMiddleware 的 process request() 
图 数 实现 。 

(2) 请 求 发 送 成 功 后 ， 调 用 DownloaderMiddleware 的 process response) PARCE PRAE M Ki p 
内 容 ， 并 将 啊 应 内 容 发 送 给 Scrapy 51 €. 

(3) Scrapy 引擎 将 啊 应 内 容 传递 给 SpiderMiddleware 的 process spider inputO PE ZI AE B, 根据 
开发 者 编写 的 Spider 程序 来 对 啊 应 内 容 进 行 清 洗 处 理 。 

(4) SpiderMiddleware 将 处 理 结果 返回 给 Scrapy 引擎 ， 这 个 过 程 是 由 process spider output() 
图 数 实 现 。 而 Scrapy 引擎 再 将 结果 传递 给 Item Pipeline， 从 而 实现 数据 存储 。 
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23.1.1 SpiderMiddleware 中 间 件 


在 middlewares.py 文件 里 得 看 中 间 件 SpiderMiddleware 的 定义 方式 ,该 中 间 件 定义 了 6 个 方法 ， 
每 个 方法 负责 实现 不 同 的 功能 ， 有 具体 的 代码 如 下 : 


from scrapy import signals 
class MySpiderMiddleware (object): 
i Not all methods need to be defined. If a method is not defined, 
 scrapy acts as if the spider middleware does not modify the 
passed objects. 
Qà&classmethod 
def from crawler (cls, crawler): 
# This method is used by Scrapy to create your spiders. 
5 c Elsi} 
crawler.sTgnals.connectis.spider opened, 
signal-signals.spider opened) 
LCGLHFH 5 


def process spider input(self, response, spider): 
# Called for each response that goes through the spider 
# middleware and into the spider. 
# Should return None or raise an exception. 
return None 


def process spider output(self, response, result, spider): 
# Called with the results returned from the Spider, after 
# it has processed the response. 
# Must return an iterable of Request, dict or Item objects. 
tor i in result: 
yield i 


def process spider exception(self, response, exception, spider): 
# Called when a spider or process spider input() method 
# (from other spider middleware) raises an exception. 
# Should return either None or an iterable of Response, dict 
# or Item objects. 
pass 


def process start requests(self, start requests, spider): 
# Called with the start requests of the spider, and works 
# similarly to the process spider output() method, except 
# that it doesn't have a response associated. 
# Must return only requests (not items). 
for r in start requests: 
yield r 


def spider opened (self, spider): 
spider.logger.info('Spider opened: $s' $ spider.name) 


中 间 件 SpiderMiddleware 以 类 的 形式 表示 , 默认 情况 下 , 2854573 ^ AH fA SpiderMiddleware " , 
而 目 定 义 中 间 件 可 根据 开 及 者 的 喜好 目 行 傅 名。 上 述 代 三 的 6 个 方法 说 明 如 下 : 


e from crawlerO 是 访问 settings 和 signals 的 入 口 马 数 ， 比 如 读 取 配置 文件 settings.py 的 某 些 
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配置 。 重 写 这 个 方法 需要 返回 实例 对 象 ; 如 果 返 回 的 对 象 里 带 有 参数 ， 可 在 初始 化 方法 
| mt QA, FTF: 

class MySpiderMiddleware (object): 

I 重 与 init 

# 参数 MySetting 来 自 from crawler 的 返回 参数 

def init  (self,MySetting-None) 
pass 

# 5j from crawler 

Qclassmethod 

der from crawler (cls, crawler): 
# 从 配置 文件 读 取 Mysetting 内 容 
MySetting-crawler.settings.get('MySetting') 
# 返回 实例 对 象 ， 并 设置 参数 MySettind 
return cls (MySetting) 

è process spider inputO 是 处 理 网 页 的 响应 内 容 ， 如 果 方 法 的 返回 值 为 None， 则 代表 该 方法 
执行 完成 。 参 数 response 代表 网 页 的 响应 内 容 ; 参数 spider 代表 项 目 spider 文件 夹 的 spider 
TU. 

€ process spider outputO 是 将 响应 内 容 的 处 理 结果 返回 到 spider 程序 。 参 数 response 代表 网 
页 的 响应 内 容 ; 参数 result 代表 响应 内 容 的 处 理 结果 ; 参数 spider 代表 项 目 spider x fF X 
的 spider AF. 

* process spider exception() 是 在 spider 程序 或 process spider input(O) 方 法 引发 异常 时 执行 的 
处 理 。 参 数 response 代表 当前 请 求 的 响应 内 容 ; 参数 exception XR JE X. (JT 
信息 ; 参数 spider 代表 项 目 spider 文件 夹 的 spider 程序 。 

& process start requests) Æ spider 程序 发 送 HTTP 请 来 的 时 候 调 有 用。 参数 start requests 代表 
HTTP 请 求 对 象 ， 参 数 spider 代表 项 目 spider X fF 3 84 spider 程序 ， 

è spider opened) Æ spider 程序 的 运行 记录 ,参数 spider RAA A spider 文 件 夹 的 spider 程序 。 


在 middlewares.py 文件 里 定义 的 中 间 件 还 需要 在 配置 文件 settings.py 里 注册 激活 才能 使 用 , FI 
开 配 置 文件 settings.py， 并 找到 配置 属性 SPIDER MIDDLEWARES。Scrapy 项 目 创建 的 时 候 ， 该 
属性 已 被 注释 ， 只 要 将 注释 去 挥 即 可 ,如果 项 目 里 自 定 义 了 中 间 件 , 在 该 配置 属性 下 写 入 目 定 义 中 
则 件 即 可 生效 ， 如 下 所 示 : 

SPIDER MIDDLEWARES = [| 

# 注册 激活 项 目 默 认 的 中 间 件 MysScrapysSpiderMiddleware 

'MyScrapy.middlewares.MyScrapySpiderMiddleware': 543, 

# 注册 激活 自 定义 中 间 件 MySpiderMiddleware 

'MyScrapy.middlewares.MySpiderMiddleware': 100, 

} 

配置 属性 SPIDER MIDDLEWARES 以 字典 格式 表示 ,字典 的 key 代表 中 间 件 的 路 径 信 息 ， 如 

“MyScrapy” 代 表 文 件 夹 MyScrapy 〈 即 项 目 名 ) ，“middlewares ”代表 middlewares.py XIF, 
“MyScrapySpiderMiddleware” 代 表 文 件 middlewares.py 里 定义 的 MyScrapySpiderMiddleware 类 。 

字典 的 value 代表 中 间 件 执行 的 优先 级 别 ， 数 值 越 低 ， 优 先 级 越 高 ， 比 如 上 述 代 码 诉 活 了 两 个 
rH [BH] fF, ?4 Scrapy 引擎 使 用 中 间 件 SpiderMiddleware 的 时 候 ， 则 优先 执行 中 间 件 
MySpiderMiddleware， 最 后 再 执行 中 间 件 MyScrapySpiderMiddleware. 
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在 Scrapy 框架 里 提供 了 5 个 内 置 的 SpiderMiddleware 中 辐 件 ， 这 些 中 间 件 的 源码 可 在 Python 
的 安装 日 录 Lib\site-packages\scrapy\spidermiddlewares 下 找到 , 它们 实现 的 功能 说 明 如 表 23-1 所 示 。 


表 23-1 SpiderMiddleware 内 置 中 间 件 及 其 功能 说 明 


SpiderMiddleware 中 间 件 功能 说 明 
DepthMiddleware JE E REA VE SK CEU v HS ARS FE hr ERG 


过 滤 所 有 失败 或 错误 的 HTTP 状态 码 ， 可 节省 计算 机 的 资源 消耗 


OffsiteMiddleware 当前 请 求 的 URL 域名 不 符合 spider 的 allowed domains， 则 过 滤 该 请 求 
RefererMiddleware 根据 请 求 的 啊 应 内 容 来 设置 请 求 头 的 Referer 字段 
UrlLengthMiddleware 知 当 前 请 求 的 URL 不 符合 中 间 件 所 设置 的 URL 长 度 ， 则 过 滤 该 请 求 


FE Scrapy 项 目 里 使 用 内 置 中 间 件 ， 必 须 了 解 每 个 中 间 件 的 定义 方式 ， 比 如 
UrlLengthMiddleware， 该 中 间 件 需要 在 配置 文件 settings.py 中 设置 属性 URLLENGTH LIMIT, H 
于 判断 URL 的 长 度 是 否 符合 有 要求。 此外， 中间 件 还 需要 在 配置 属性 SPIDER MIDDLEWARES 中 
进行 注册 激活 ， 各 个 内 置 中 间 件 的 注册 激活 方法 如 下 : 


i 

'Scrapy.contrib.spidermiddleware.httperror.HttpErrorMiddleware': 50, 
'Scrapy.contrib.spidermiddleware.offsite.OffsiteMiddleware': 500, 
'Scrapy.contrib.spidermiddleware.referer.RefererMiddleware': 700, 
'Scrapy.contrib.spidermiddleware.urllength.UrlLengthMiddleware': 800, 
'Scrapy.contrib.spidermiddleware.depth.DepthMiddleware': 900, 

} 


23.1.2 DownloaderMiddleware 中 国 件 


在 middlewares.py 文件 里 查看 中 间 件 DownloaderMiddleware 的 定义 方式 ， 该 中 间 件 定义 了 5 
个 方法 ， 每 个 方法 负责 实现 不 同 的 功能 ， 有 具体 的 代码 如 下 : 


class MyDownloaderMiddleware (object): 
i Not all methods need to be defined. If a method is not defined, 
i scrapy acts as if the downloader middleware does not modify the 
t passed objects. 


Q&classmethod 
def from crawler (cls, crawler): 
# This method is used by Scrapy to create your spiders. 
3 — cd E P 
crawler.signals.connect(s.spider opened, 
signal-signals.spider opened) 
rekura 5 


def process request(self, request, spider): 
t Called for each request that goes through the downloader 
# middleware. 
# Must either: 
# - return None: continue processing this request 
# - or return a Response object 
# - or return a Request object 
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# - or raise IgnoreRequest: process exception() methods of 
# | installed downloader middleware will be called 
return None 


def process response(self, request, response, spider): 
# Called with the response returned from the downloader. 
# Must either; 


# - return a Response object 
#4 — return a Request object 
# - or raise IgnoreRequest 


return re sponse 


def process exception (self, request, exception, spider): 
t Called when a download handler or a process request () 
# (from other downloader middleware) raises an exception. 
Must either: 


# - return None: continue processing this exception 

# - return a Response object: stops process exception() chain 
# — return a Request object: stops process exception() chain 
pass 


def spider opened(self, spider): 
spider.logger.info('Spider opened: $s' $ spider.name) 


中 [RH] ff DownloaderMiddleware 以 类 的 形式 表示 ， 默 认 情 况 下 ， 类 名 为 “项 目 名 
+DownloaderMiddleware”， 目 定义 中 则 件 可 根据 开发 者 的 喜好 目 行 命名 。 上 述 代码 的 5 个 方法 说 


明 如 下 : 


e from crawler() 有 是 访问 settings 和 signals 的 入 口 函 数 ， 它 的 作用 与 中 则 件 SpiderMiddleware 


的 一 致 。 


@ process request) Æ Scrapy 发 送 HTTP 请 求 时 所 调用 的 方法 。 参 数 request 代表 当前 请 求 对 


和 象 ， 如 请 求 头 、 请 求 方式 和 请 求 URL 等 信息 ; 参数 spider 代表 项 目 spider 3x fF 3 4 spider 
程序 。 方 法 返回 值 可 为 None、Response *| €, Request *1 F-X IgnoreRequest 对 象 ， 各 个 返 
回 值 的 说 明 如 下 。 
> None: 这 是 常见 的 返回 值 ， 代 表 方 法 执行 完成 并 往 下 执行 想 虫 程序 。 
> Response] 5$: 停止 process IequestO 的 执行 ， 并 开始 执行 process response(). 
> Request 对 象 : 停止 当前 中 间 件 的 执行 ， 将 当前 的 请 求 给 Scrapy 引擎 重新 执行 。 
> IgnoreRequest *T 2e: 抛 出 Scrapy 定 义 的 异 第 对 象 ， 再 由 process_exception(0) 处 理 异 第 ， 
而 当前 请 求 不 再 往 下 执行 ， 
process TesponseO 是 生成 当前 请 求 的 响应 内 容 ， 并 将 响应 内 容 发 送 给 Scrapy 引擎 。 参 数 
request 代表 当前 请 求 对 象 ， 这 有 请 求 头 、 请 求 方式 和 请 求 地 址 等 信息 ; 参数 response 是 当 
前 请 求 的 响应 内 容 ; 参数 spider RARE spider 文件 夹 的 spider 程序 。 方 法 返回 值 可 为 
Response 对 象 、Request 对 其 或 IgnoreRequest 对 象 ， 各 个 返回 值 的 说 明 如 下 。 
> Response 对 和 象 : 将 响应 内 容 传 递 给 其 他 中 间 件 的 process responseQ 3 Scrapy 51. 
> Request 对 象 : 停止 当前 中 间 件 的 执行 ， 将 当前 的 请 求 给 Scrapy 引擎 重新 执行 。 
> IgnoreRequest X] $-: 抛 出 Scrapy 定义 的 异常 对 象 ， 再 由 process_exception() 处 理 异 第 ， 
而 当前 请 求 不 再 往 下 执行 。 
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€ process exception) € Æ spider 程序 、process request()9X process response() 方 法 引发 骨 常 时 
而 执行 的 处 理 。 参 数 request 代表 引发 异常 时 所 对 应 的 响应 内 容 ; 参数 exception 代表 异常 
对 荣 ， 和 包含 异常 信息 ; 参数 spider 代表 项 目 spider 文件 夹 的 spider 程序 。 

spider opened0O 是 spider 程序 的 运行 记录 ， 参 数 spider 代表 项 目 spider 文件 夹 的 spider 程序 。 


中 间 件 DownloaderMiddleware 的 注册 油 活 方式 与 中 间 件 SpiderMiddleware 相同 ， 只 不 过 配置 
文件 的 配置 属性 有 所 不 同 ， 其 配置 属性 为 DOWNLOADER MIDDLEWARES。 

在 Scrapy 框架 里 提供 了 15 个 内 置 的 DownloaderMiddleware 中 间 件 ， 这 些 中 则 件 的 源码 可 在 
Python 的 安装 目录 Lib\site-packages\scrapy\downloadermiddlewares 下 找到 ， 它 们 实现 的 功能 说 明 如 
表 23-2 所 示 。 


表 23-2  DownloaderMiddleware 内 置 中 间 件 及 其 说 明 


设置 当前 请 求 的 Cookies 信息 
DefaultHeadersMiddleware 当前 请 求 设 置 默认 请 求 头 《〈 即 配置 属性 DEFAULT REQUEST HEADERS) 
DownloadTimeoutMiddleware 设置 当前 请 求 的 超时 时 间 
HttpAuthMiddleware 为 当前 请 求 完成 HTTP 认证 过 程 
为 整个 请 求 提供 底层 〈low-level) 缓存 支持 
HttpCompressionMiddleware 提供 了 对 压缩 (gzip, deflate) 数据 的 支持 
ChunkedTransferMiddleware 提供 分 块 传输 编码 功能 


HttpProxyMiddleware 设置 当前 请 求 的 HITP 代理 


RedirectMiddleware 根据 啊 应 内 容 的 状态 个 处 理 重 定 向 的 请 求 
根据 响应 内 容 的 HTML 的 meta-refresh 标签 处 理 重 定向 的 请 求 
对 错误 或 失败 的 请 求 进行 重新 的 调度 ， 再 次 发 送 HTTP 请 求 
根据 网 站 的 robots.txt 来 筛选 可 疏 取 的 网 页 内 容 

DownloaderStats 保存 其 他 中 间 件 的 方法 信息 

UserAgentMiddleware 设置 当前 请 求 的 请 求 头 的 User-Agent 字段 

AjaxCrawlMiddleware 根据 啊 应 内 容 的 HTML 的 meta-fragment 标签 查找 AJAX PJER 92 hi 


AABE Scrapy 项 目 里 使 用 内 置 中 间 件 ， 必 须 了 解 每 个 中 间 件 的 定义 方式 。 此 外 ， 中 间 件 还 需 
要 在 配置 属性 DOWNLOADER MIDDLEWARES 进行 注册 激活 ， 各 个 内 置 中 间 件 的 注册 激活 方法 
üt: 

( 


'Scrapy.contrib.downloadermiddleware.robotstxt.RobotsTxtMiddleware': 100, 
'Scrapy.contrib.downloadermiddleware.httpauth.HttpAuthMiddleware': 300, 
'Scrapy.contrib.downloadermiddleware.downloadtimeout.DownloadTimeoutMiddle 
ware': 350, 
'Sscrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': 400, 
'Scrapy.contrib.downloadermiddleware.retry.RetryMiddleware': 500, 
'scrapy.contrib.downloadermiddleware.defaultheaders.DefaultHeadersMiddlewa 
ret: DoD, 
'Scrapy.contrib.downloadermiddleware.redirect.MetaRefreshMiddleware': 580, 
'Scrapy.contrib.downloadermiddleware.httpcompression.HttpCompressionMiddle 
ware': 590, 
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'Scrapy.contrib.downloadermiddleware.redirect.RedirectMiddleware': 600, 

'Scrapy.contrib.downloadermiddleware.cookies.CookiesMiddleware': 700, 

'Sscrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 750, 

'Scrapy.contrib.downloadermiddleware.chunked.ChunkedTransferMiddleware': 
B30U, 

'Scrapy.contrib.downloadermiddleware.stats.DownloaderStats': 850, 

'Scrapy.contrib.downloadermiddleware.httpcache.HttpCacheMiddleware': 900, 

} 

总 的 来 说 ， 中 间 件 SpiderMiddleware 和 DownloaderMiddleware 与 spider 程序 是 紧密 关联 的 。 
spider 程序 是 通过 中 间 件 与 Scrapy 引擎 进行 交互 ， 也 束 是 说 ， 中 间 件 是 作为 spider 程序 与 Scrapy 
引擎 的 通信 桥 染 ， 而 通过 目 定义 中 间 件 可 有 效 改 变通 信 方 式 ， 从 而 满足 开 肥 需求。 


23.2 AXP i} 


虽然 Scrapy 内 置 了 多 个 中 间 件 ， 但 大 多 数 情况 下 ， 开 发 者 更 乐意 编写 目 定 义 中 间 件 ， 这 样 不 
仅 能 满足 开 友 需求 ， 而 且 可 节省 开 友 时 间 。 如 果 使 用 内 置 中 间 件 ， 开 友 者 需要 对 内 置 中 间 件 有 一 定 
的 擎 握 ， 并 且 还 可 能 需要 重 写 内 置 中 国 件 ， 这 样 对 比 自 定 义 中 间 件 来 说 ， 它 的 开 有 友 周 期 相对 较 长 。 

中 间 件 的 目 定 义 是 实现 类 的 定义 ， 该 类 可 选择 是 人 否 继 承 茶 个 父 关 ， 比 如 定义 
MyDownloaderMiddleware 中 间 件 ,该 中间 件 可 以 继承 objects 类 (Python 的 新 式 类 ) ， 还 可 以 继承 
Scrapy 的 内 置 中 间 件 ， 使 得 目 定义 中 间 件 具有 内 置 中 间 件 的 功能 。 

在 自 定 义 中 间 件 里 可 以 定义 多 个 属性 、 方 法 以 及 草 写 初始 化 方法 等 操作 ， 但 是 要 让 中 间 件 起 
到 实际 作用 ， 某 些 方法 是 必 不 可 少 的 。 比 如 process request() 或 process response0 方 法 等 ， 我 们 只 
要 重 写 这 些 方法 ， 就 能 起 到 自 定 义 作 用 ， 因 为 Scrapy 引擎 根据 这 些 方法 名 来 执行 处 理 ， 若 自 定 义 
中 间 件 没有 目 定 义 这 些 方法 ，Scrapy 引擎 会 按照 原 有 的 方法 执行 ， 这 样 就 失去 了 目 定 义 的 意义 。 


23.2.1 设置 代理 IP 服务 


在 爬虫 开发 过 程 中 ， 使 用 代理 P 同 网 站 发 送 HTTP 请 求 是 有 效 解 决 反 有 息 虫 的 方法 之 一 。 虽 然 
Scrapy A B y HTTP 代理 的 中 间 件 HttpProxyMiddleware, 但 分 析 HttpProxyMiddleware 的 源码 得 知 ， 
它 实 现 的 功能 与 我 们 利用 的 代理 IP. 功能 有 所 不 同 , 因此 代理 IP. 功能 只 能 通过 上 自 定 义 中 间 件 的 方式 
实现 。 
首先 在 CMD 命令 提示 从 窗口 下 创建 Scrapy 项 目 ， 项 目 名 为 useProxy， 并 且 在 项 目的 spiders 
文件 夹 里 创建 proxySpider.py 文件 ， 整 个 项 目的 目录 结构 如 图 23-1 所 示 。 
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useProxy D:\useProxy 
useProxy 
spiders 
& Init .py 
2. proxySpider.py 


2$ Init .py 
s items.py 
a middlewares.py 
2. pipelines.py 
a settings.py 
W scrapy.cfg 


图 23-1 useProxy 的 目录 结构 


打开 项 目的 middlewares.py X fF, 文件 己 有 的 代码 不 做 任何 修改 , 并 在 最 下 方 的 衬 日 位 置 目 定 
义 中 间 件 HttpbinProxyMiddleware。 目 定义 中 固件 的 代码 如 下 : 
# 自 定义 中 间 件 
import requests 
class HttpbinProxyMiddleware (object): 
def process request(self, request, spider): 
url = 'http://api.ip.databu.com/socks/get.html? 
order-66e943bad6ca54b010168351e5f53186& 
jJson-l&type-1&sep-3' 
pro addr = requests.get(url).-json().get('data', '"') 
1f pro addr: 
ip = pro addr[0].get('"ip') 
port = pro addr[0]-getE{*port:) 
request .meta['proxy']='http://'+str(ip)+':'"+str (port) 


HJF HttpbinProxyMiddleware 定义 了 方法 process requestD， 这 是 处 理 Scrapy 同 网 站 发 送 
HTTP 请 求 信 息 。 在 该 方法 里 ， 使 用 Python 的 requests 模块 回 第 三 方 代理 IP 服务 平台 发 送 HTTP 
请 求 ， 从 而 获取 代理 IP 的 地 址 ， 再 将 代理 IP 的 地 址 以 参数 proxy 的 形式 写 入 Scrapy 的 当前 请 求 ， 
使 Scrapy 的 当前 请 求 以 代理 IP 的 形式 回 网 站 发 送 HTTP 请 求 。 

在 配置 文件 settings.py 里 注册 激活 目 定 义 中 间 件 ， 目 定义 中 间 件 属于 DownloaderMiddleware 
类 型 ， 因 此 将 配置 属性 DOWNLOADER MIDDLEWARES 的 注释 去 除 ， 并 将 自 定 义 中 间 件 写 入 配 
置信 息 里 。 此 外 ， 在 配置 属性 DEFAULT REQUEST HEADERS 添加 User-Agent 以 及 配置 属性 
ROBOTSTXT OBEY 设置 为 False。 参 见 如 下 代码 : 

ROBOTSTXT OBEY = False 

# 注册 激活 中 间 件 

DOWNLOADER MIDDLEWARES = { 

'useProxy.middlewares.UseproxyDownloaderMiddleware': 543, 
'useProxy.middlewares.HttpbinProxyMiddleware': 543, 

} 

# 添加 User-Agent 

DEFAULT REQUEST HEADERS = [ 

'Accept':'text/html,application/xhtml-«xml, 
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applrcabronyxml:;q 0.9,*/*-9 0.8', 

tACCODnL-Lhungudge'- tent, 

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 
AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/69.0.3497.100 Safar1/537.306' 

} 


最 后 在 proxySpider.py 文件 里 编写 爬虫 程序 ， 验 证 代理 IP 服务 是 否 正常 使 用 。 本 次 扑 取 的 网 
站 是 一 个 HTTP 测试 网 站 , 该 网 站 返回 用 户 的 请 求 信息 , 根据 网 站 返回 的 信息 来 验证 代理 IP 服务 。 
在 浏览 右上 访问 “http://httpbin.org/get” 网 址 ， 在 网 页 中 找到 当前 本 地 的 外 网 下 地 址 ， 如 图 23-2 
所 示 。 
< C 不 安全 | httpbin.org/get 


{ 
"args : h 
"headers : | 
"Accept": "text/html, application/xhtml-*xml, application/xml :q=0 
“Accept-Encoding”: “gzip, deflate“, 
“Accept-Language”: "zh-CN, zh; q-0. 9^, 


"Connection": "close", 
"Host : ‘httpbin. org”, 
"Upgrade-Insecure-Requests : “1”, 


“User-Agent”: "Mozilla/5.0 (Windows NT 10.0; Win64; x64) Apple! 


图 23-2 本 地 的 外 网 他 地 址 


在 proxySpider.py 文件 编写 spider 程序 HttpbinSpider0, 将 HTTP 测试 网 站 的 URL 作为 朴 取 对 
象 ， 并 将 网 站 的 啊 应 内 容 输 出 。spider 程序 的 代码 如 下 : 
import scrapy 
class HttpbinSpider (scrapy.Spider): 
name — "httpbin" 
allowed domains - ["httpbin.ort/get"] 
start uris = ['http://httpbrn-org/get ' ] 
def parse(seli, response): 
print (response.text) 


至 此 ， 整 个 代理 IP 的 中 间 件 HttpbinProxyMiddleware 开发 已 完成 。 在 CMD 窗口 或 PyCharm 


的 Terminal 窗口 下 输入 指令 scrapy crawl httpbin， 局 动 并 运行 项 目 useProxy。 在 项 目 运 行 的 日 志 中 
可 以 找到 HTTP 测试 网 站 的 啊 应 内 容 ， 如 图 23-3 所 示 。 
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"args": lj 


| e 
| Bai c Big 122 4 29 120 


“Accept”: "text/html, application/xhtml-xml, 


"headers": ( 


"Accept-Encoding': “gzip, deflate, br”, 

' Accept-Language": "en", 

"Comection”: "close", 

"Host": "httpbin. org”, 

"User-Agent': "Mozilla/5.0 (Windows NT 10.1 
}, 


“origin” :| "122. 4. 29. 120%, 


"url": "http://httpbin. org/get” 


www.ip135.com/ + - 


图 23-3 项目 useProxy 的 运行 结 朱 


在 上 述 例子 中 ， 中 间 件 HttpbinProxyMiddleware 是 对 所 有 的 HTTP 请 求 都 使 用 代理 IP 访问 。 
在 实际 的 开发 中 ， 需 要 根据 不 同 的 URL 来 合理 选择 代理 他 ， 可 在 中 间 件 HttpbinProxyMiddleware 
判断 当前 请 求 的 URL 域名 ， 从 而 执行 相应 的 处 理 ， 如 下 所 示 : 


import requests 
class HttpbinProxyMiddleware (object): 
def process request(self, request, spider): 
# 判断 URL 的 域名 是 否 使 用 代理 IP 
if "'"google.com' in reguest.url:- 
url = 'http://api.ip.datab5bu.com/socks/get.html? 
order-66e943bad6ca54b010168351e5f53186& 
jJson-l&type-1&sep-3' 
pro addr-requests.get(url).json().get('data','") 
1f pro addr: 
ip = pro addr[0].get(':ip') 
port = pro adur[ul-geri( port") 
request .meta[l'proxy'l]='http://"'+str (ip)+":"+str (port) 
Eas 
return None 


232.22 动态 设置 请 求 头 


在 分 析 网 站 的 时 候 ， 每 个 请 求 信 息 的 请 求 头 属性 都 会 各 不 相同 ， 还 有 一 些 网 站 会 根据 请 求 头 
内 容 来 制定 一 系列 的 反扑 虫 策 略 。 对 于 Scrapy 框架 来 说 ， 请 求 头 可 以 在 spider 程序 里 定义 并 以 参 
数 headers 的 形式 传递 给 HTTP 请 求 ， 如 下 所 示 : 


import scrapy 
from scrapy.spider import Request 
class HeaderSpider (scrapy.Spider): 

name c hbEgderst 

allowed domains - ["httpbin.ort/get"] 

start urls = ['http://httpbin.org/get"] 

def start requestsiselt)- 

self.headers = I 
"User-Agent': 'Mozilla/4.0 (compatible; MSIE 7.0: 
Windows NT 5.1; 360SE)' 
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yield Request(url-self.start urls[0],headers-self.headers, 
callback -self parse) 
der parse {seli, TPOSDODSC 
print (response.text) 

上 述 例子 是 为 当前 HTTP iBcKdx EONOEHJIBIKOR. Xi— T spider 程序 里 有 多 个 不 同 的 HTTP 
请 求 ,那么 每 个 请 求 的 请 求 涉 有 可 能 出 现 内 容重 党 ,这 样 很 容易 造成 代码 的 见 余 。 对 于 这 些 重复 定 
义 或 者 交互 调用 的 情况 ， 可 以 将 请 求 头 以 中 间 件 的 形式 实现 。 

在 CMD 命令 提示 和 从 窗口 下 创建 Scrapy 项 目 ， 项 目 名 为 requestHeader， 并 且 在 项 目的 spiders 
文件 夹 里 创建 headerSpiders.py 文件 ， 整 个 项 目的 目录 结构 如 图 23-4 所 示 。 

requestHeader D:\requestHeader 


requestHeader 


v spiders 
S Init .py 
a headerSpiders.py 


$ init .py 
a items.py 
a middlewares.py 
2 pipelines.py 
a settings.py 
WM scrapy.cfg 


图 23-4 requestHeader 的 目录 结构 


打开 项 目的 middlewares.py X ft, 文件 已 有 的 代码 不 做 任何 修改 , 并 在 最 下 方 的 空白 位 置 目 定 
义 中 国 件 HeaderMiddqdleware。 目 定义 中 间 件 的 代码 如 下 : 

# 根据 参数 meta 的 requsetHeader 动态 设置 请 求 头 

class HeaderMiddleware (object): 

def process request(self, request, spider): 
BcugdcrFO.rCHuHCeSE meta uci rcuguscticadcr 27 
if header: 
for key, values in header.items(): 
reguest.headers-sebLderaulrikcy, values) 

中 间 件 HeaderMiddleware 定义 了 方法 process request()， 在 该 方法 里 ， 获 取 当 前 请 求 request 
的 参数 meta 的 属性 requsetHeader， 参 数 meta 是 由 spider 程序 设置 ， 属 性 requsetHeader 的 值 以 字 
典 的 形式 表示 ， 了 字典 的 key 代表 请 求 尖 的 属性 ， 字 典 的 value 代表 请 求 头 的 属性 值 。 通 历 字 典 的 键 
值 对 ， 将 每 个 键 值 对 作为 当前 请 求 的 请 求 头 内 容 。 

在 配置 文件 settings.py 里 注册 激活 目 定 义 中 间 件 , 目 定义 中 间 件 是 属于 DownloaderMiddleware 
类 型 ， 因 此 将 配置 属性 DOWNLOADER MIDDLEWARES 的 注释 去 除 ， 并 将 自 定义 中 间 件 写 入 配 
置信 息 里 。 此 外 ， 在 配置 属性 DEFAULT REQUEST HEADERS 添加 User-Agent 以 及 配置 属性 
ROBOTSTXT OBEY 设置 为 False。 如 下 所 示 : 

ROBOTSTXT OBEY = False 

# 注册 激活 中 间 件 

DOWNLOADER MIDDLEWARES = { 


'requestHeader.middlewares.HeaderMiddleware': 300, 
'requestHeader.middlewares.RequestheaderDownloaderMiddleware': 543, 
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} 
+ 添加 User-Agent 
DEFAULT REQUEST HEADERS = 二 
'Accept': 'text/html,application/xhtml-«xml, 
application/xml;q=0.9,*/*;q=0.8", 
“Ceept Language -Gn 
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 
AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/69.0.3497.100 Safari1/537.306' 


} 
最 后 在 headerSpiders.py 文件 里 编写 爬虫 程序 ， 疏 取 的 网 站 还 是 HTTP 测试 网 站 ， 根 据 网 站 返 
回 的 啊 应 内 容 来 验证 请 求 头 的 设置 是 否 正 确 。spider 程序 代码 如 下 所 示 : 


import scrapy 
from scrapy.spider import Request 
class HeaderSpider (scrapy.Spider): 
name headers 
allowed domains - ["httpbin.ort/get"] 
start urls = ['http:y//httpbin-org/get"*] 
der start requests (selfy: 
headers = {'Referer': 'https://www.baidu.com/', 
ei Insecure Reonests -= 1, 
UACCPEDE-banguage'- "zh-CN,zhrg-U.9"*1 
yield Request(url-self.start urls[0], 
meca rcuusetiecdadg-r COBDOgUCEPSI 
tcutiback-sclrE-parss) 
def parse(self, response): 
print (response.text) 


spider 程序 定义 了 字典 headers， 并 将 字典 传 入 到 参数 meta 的 requsetHeader. ^J headers 是 
设置 请 求 头 的 可 变 属 性 ， 比 如 当前 请 求 需 要 使 用 Referer. Upgrade-Insecure-Requests 和 
Accept-Language 属性 。 而 请 求 头 的 公用 属性 设置 在 配置 文件 settings.py 的 
DEFAULT REQUEST HEADERS 属性 。 

至 此 ,整个 请 求 头 的 中 间 件 HeaderMiddleware 开发 已 完成 ,在 CMD 窗口 或 PyCharm 的 Terminal 
窗口 下 输入 指令 scrapy crawl headers， 局 动 并 运行 项 目 requestHeader。 在 项 目 运 行 的 日 志 中 找到 
HTTP 测试 网 站 的 啊 应 内 容 ， 如 图 23-5 所 示 。 


"headers": { 
"Accept': "text/html, application/xhtml+xml, application/xml ;q=0. 9, */*;q-0. 8^, 
"Accept-Encoding': "gzip, deflate, br”, 
"Accept-Language': "zh-CN, zh; q=0. 9”, 
"Connection": “close”, 


"Host": "httpbin. org”, 


} ， 
"origin": *113.111.11.164", 


"url*: “http://httpbin. org/get" 


图 23-5 项 目 requestHeader 的 运行 结果 


5234 Scrapy 扩 展开 发 | 353 
23.2.3 ”设置 随机 Cookies 


Cookies 在 网 络 疏 虫 里 担任 着 一 个 重要 的 角色， 它 代 表 当 前 用 户 信 息 ， 当 某 些 网 页 设 有 用 户 访 
问 权 限 的 时 候 , 在 息 虫 里 只 需 将 用 户 登 录 后 的 Cookies 信息 加 入 HTTP 请 求 即 可 解决 访问 权限 的 问 
题 。Cookies 不 仅 能 代表 用 户 信息 ， 还 能 制定 反 疏 虫 代 略 ， 比 如 通过 Cookies 内 容 构 建 HTTP 请 求 
的 请 求 参 数 及 Cookies 的 动态 更 新 等 ， 具 体 的 反 疏 虫 俩 略 会 在 后 续 的 章节 详细 介绍 。 

对 于 Scrapy 框架 来 说 ，Cookies 信息 可 在 Spider 程序 里 定义 并 以 参数 cookies 的 形式 传递 给 
HTTP 请 求 ， 代 码 如 下 : 


import scrapy 
from scrapy.spider import Request 
class cookiesSpider (scrapy.Spider): 
name — "cookies" 
allowed domains - ["httpbin.ort/get"] 
start urls = ['http://htbpbin.org/getk"] 
def start reguests {self}: 
cookies — ['MyCookres': 'hello Python} 
yield Request(url-self.start urls[0],cookies-cookies, 
callback sclt.parsec) 
der parprsecisoctr response 
print (response.text) 


上 述 例子 是 为 当前 HTTP 请 求 设 置 Cookies 信息 , 若 Spider 程序 有 多 个 HTTP 请 求 , 而 且 每 个 
请 求 的 URL 地 址 需要 使 用 不 同 的 Cookies。 每 次 友 送 HTTP 请 求 的 时 候 ， 都 需要 目 定义 相关 的 
Cookies 内 容 ， 无 形 之 中 造成 代码 几 余 ， 不 利于 日 后 的 维护 和 管理 ， 因 此 ， 我 们 可 以 将 Cookies 以 
中 间 件 的 形式 表示 。 
在 CMD 命令 提示 符 窗 口 下 创建 Scrapy 项 目 ， 项 目 名 为 useCookies， 并 且 在 项 目的 spiders X 
件 夹 里 创建 cookiesSpiders.py 文件 ， 整 个 项 目的 目录 结构 如 图 23-6 所 示 。 
useCookies D:\useCookies 
useCookies 
spiders 
& init .py 
a cookiesSpiders.py 


a init .py 
a items.py 
a middlewares.py 
a pipelines.py 
5 settings.py 
8S scrapy.cfg 


图 23-6 | useCookies 的 目录 结构 


打开 项 目的 middlewares.py 文件 ,文件 已 有 的 代码 不 做 任何 修改 ,并 在 最 下 方 的 宇 晶 位置 目 定 
义 中 间 件 CookiesMiddleware。 自 定义 中 间 件 的 代码 如 下 : 
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import random 
class CookiesMiddleware (object): 
def init (self, cookies): 
self.cookies = cookies 


aclassmethod 
der from crawler(cis5, crawler): 
ob] = cls'! 
Cookies=crawler.settings.get ('COOKIES LIST'), 
) 


return obj 


def process request(self, request, spider): 
cookie = random.choice(self.cookies) 
request.cookies = cookie 


中 间 件 CookiesMiddleware 重 写 初始 化 方法 和 定义 方法 from crawler0 和 process request(). "P 
间 件 实现 的 功能 说 明 如 下 : 
o 重 写 初始 化 方法 是 为 中 间 件 设置 初始 化 参数 cookies， 并 将 cookies 的 参数 值 赋值 给 属性 


cookies, 

e 类 方法 from crawler() 是 在 中 间 件 初始 化 的 时 候 ， 为 初始 化 参数 cookies 提供 参数 值 ， 参 数 
值 来 自 配 置 文件 settings.py 的 配置 属性 COOKIES LIST. 

e 配置 属性 COOKIES LIST 的 属性 值 以 列表 表示 ,每 个 列表 元 素 代 表 网 站 的 Cookies 信息 并 
以 字典 的 形式 表示 。 

€ 在 方法 process requestO 里 ,通过 Python 的 随机 函数 random 来 对 配置 属性 COOKIES LIST 
进行 随机 选取 ， 并 将 选中 的 Cookies 传 入 当前 的 HTTP HRE. 


在 配置 文件 settings.py 里 注册 激活 自 定 义 中 间 件 ， 目 定义 中 间 件 属于 DownloaderMiddleware 
类 型 ， 因 此 将 配置 属性 DOWNLOADER MIDDLEWARES 的 注释 去 除 ， 并 将 自 定义 中 间 件 写 入 配 
置信 息 里 。 此 外 , 将 配置 属性 ROBOTSTXT OBEY 设置 为 False 及 设置 配置 属性 COOKIES LIST。 
代码 如 下 : 


ROBOTSTXT OBEY = False 
# 注册 激活 中 间 件 
DOWNLOADER MIDDLEWARES = { 
'useCookies.middlewares.CookiesMiddleware': 300, 
'useCookies.middlewares.UsecookiesDownloaderMiddleware': 543, 
} 
# UH Cookies 列表 
COOKIES LIST = | 
['MyCookres"': 'hello Python'}, 
{"YourCookies': "hi Python'}, 
{ ItsCookies': 'hello World'] 
] 


最 后 在 cookiesSpiders.py 文件 里 编写 爬虫 程序 ， 爬 取 的 网 站 还 是 HITP 测试 网 站 , 根据 网 站 返 
回 的 啊 应 内 容 来 验证 Cookies 的 设置 是 否 正 确 。Spider 程序 代码 如 下 : 


import scrapy 
from scrapy.spider import Request 
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class cookiesSpider (scrapy.Spider): 
name — "cookies" 
allowed domains - ["httpbin.ort/get"] 
start uris — ['http://httpbin.org/gcet' | 
der start roedgucstsiselrp 
yield Request(url-self.start urls[0],callback-self.parse) 
det parse{self, response): 
print (response.text) 


至 此 ， 整 个 Cookies 的 中 则 件 CookiesMiddleware 开发 已 完成 。 在 CMD 窗口 或 PyCharm 的 
Terminal 窗口 下 输入 指令 scrapy crawl cookies， 局 动 并 运行 项 目 useCookies。 在 项 目 运行 的 日 志 中 
找到 HTTP 测试 网 站 的 啊 应 内 容 ， 如 图 23-7 所 示 。 

"headers": | 


"Accept: "text/html, application/xhtml-*xml, application/xml;q 


"Accept-Encoding": gzip, deflate, br”, 


"Host": "httpbin.org', 


"User-Agent : "Scrapy/1.5.1 (*https:// 


图 23-7 MH useCookies 的 运行 结果 


23.3 实战: Scrapy*Selenium WERN x iras PEE 


Scrapy AX fé B EXPE, xe nf R A RU SSECSSPUMIBSIBIRBUI 3X. E Scrapy 
框架 上 使 用 Selenium 模块 实现 扑 虫 开发 是 曾 见 的 手段 之 一 ， 因 为 Selenium 可 以 模拟 用 户 访问 浏览 
di, 从 中 疏 取 目标 数据 , 实现 过 程 较为 简单 , 而 且 能 绕 开 各 种 反扑 虫 策略 。 本 市 将 讲述 如 何在 Scrapy 
框架 里 使 用 Selenium 实现 豆 办 电影 评论 的 爬 取 。 


23.3.1 网 站 分 析 


在 开发 候 虫 程序 之 前 ， 需 要 对 网 站 进行 详细 分 析 ， 根 据 分 析 结 果 制 定 开 友 流 程 。 在 浏览 璐 上 
打开 某 个 电影 评论 页 面 (https://movie.douban.conysubject/26425063/comments?status=P) ， 并 在 谷 
歌 开 及 者 工具 分 析 网 页 内 容 ， 如 图 23-8 所 示 。 
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ê https;//movie.douban.com/subject/26425063/comments?statusz P 


EZRA AEM) CER), SFLERR (OW) , MESARE, ibi 
RER. AIESTA EANAN, aAa, BS ISSUE 
品 。 最 后 ， 重 回 枪林弹雨 的 发 哥 ， 你 一 定 不 能 错过 


Elements Console Sources Network Performance Memory Application Security 


—— Me oa cac xo Ca un x oer — gy ar y rs gas 
«div class-"comment-filter" »..«/div» 
v«div class-"mod-bd" id-"comments"» 
v«div class-"comment-item" data-cid- 1476217634" 5 
: :before 
«div class-" avatar" »..«/div» 
v«div class-"comment": 
b ch3»..«/h3» 
v<p class» 
Y«span class- "short : 
n 《 树 大 招 风 》 OBJED ， 今 年 又 有 这 部 《无 双 》， 感 谢 这 些 导 诗 还 能 找到 官 心 


不 再 是 简单 的 黑 日 对 蔚 和 人 性 光 般 ， 主 题 线 的 丰富 让 方言 从 穿 的 时 候 ， 留 下 最 病 的 纪念 品 。 节 | 
AxfbkpO " 


图 23-8 网 页 分 析 

我 们 需要 在 开发 者 工具 的 Elements 标签 中 分 析 网 页 ,因为 Selenium 获取 的 网 页 内 容 与 Elements 
标签 的 网 页 内 容 相 同 。 分 析 得 知 ， 当 前 页 面 的 所 有 电影 评论 是 在 一 个 属性 id 为 comments 的 div 标 
ZE, 每 个 评论 是 在 一 个 属性 class 为 comment 的 div 标签 里 ， 而 评论 内 容 是 以 span 标签 磐 入 在 
div 标签 里 。 

当 单 击 网 页 最 下 方 的 “后 页 ” 即 可 访问 第 二 页 的 评论 内 容 ， 发 现 第 二 页 的 URL 地 址 多 了 三 个 
请 求 参 数 。 为 了 理解 这 三 个 参数 的 作用 ， 我 们 切换 不 同 的 页 数 ， 找 出 这 些 参数 的 变化 规律 ， 如 图 
23-9 所 示 。 


& https://movie.douban.com/subject/26425063/comments?startzO&limit220&sortznew score&status- P 


x + 


à https;//movie.douban.com/subject/26425063/comments?startz 20&limit220&sort2new score&status- P 


x + 


à https://movie.douban.com/subject/26425063/comments?start-40&limit220&sortz2new score&status- P 


图 23-9 分 析 请 求 参 数 
图 23-9 上 的 URL 地 址 从 上 至 下 排列 , 第 一 条 URL 是 第 一 页 评论 ; 第 二 条 URL 是 第 二 页 评论 ; 
第 三 条 URL 是 第 三 页 评论 ， 从 三 条 URL 的 变化 规律 得 知 ，URL 的 构造 说 明 如 下 : 
€ start 是 当前 页 数 的 首 条 评论 在 全 部 评论 的 位 置 ， 每 页 的 评论 有 20 条 ， 第 一 页 的 首 条 评论 
从 0 开始 ， 第 二 页 的 首 条 评论 从 20 开始 …… 以 此 类 推 ， 得 出 参数 start 的 值 为 px20, p 
为 每 页 的 页 数 ， 并 且 页 数 从 0 开始 计算 。 
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e limit 是 每 一 页 的 评论 数量 ， 由 于 每 页 的 评论 数量 固定 为 20 条 ， 因 此 该 参数 值 为 20。 

e sort 是 所 有 评论 的 排序 方式 ， 参 数值 new score 是 以 评论 的 热门 程序 进行 排序 ， 若 无 特殊 
要 求 ， 可 将 该 参数 视 为 国定 参数 。 

e status 代表 当前 评论 的 用 户 已 经 看 过 该 电影 ， 若 无 特殊 要 求 ， 也 可 将 该 参数 视 为 固定 参数 。 

e URL 地 址 的 “26425063” 代 表 当 前 电影 的 ID， 只 要 将 不 同 电影 的 ID 替换 到 URL 地 址 里 ， 
就 可 以 爬 取 不 同 电影 的 评论 内 容 。 


23.32 项 目 设 计 与 实现 


根据 网 站 分 析 设 计 Scrapy 项目 ,在 CMD 命令 提示 人 符 窗 口 下 创建 Scrapy 项 目 ,项 目 名 为 douban， 
并 且 在 项 目 settings.py 的 路 径 下 创建 confini 文件 夹 以 及 在 spiders 文件 夹 里 创建 movie.py 文件 , 整 
个 项 目的 目录 结构 如 图 23-10 所 示 。 


douban DAdouban 


douban 


spiders 
æ init .py 
a movie.py 
& init .py 


ES conf.ini 
a items.py 
a middlewares.py 
a pipelines.py 
a settings.py 
8$ scrapy.cfg 


图 23-10 douban 的 目录 结构 


项 目 功能 分 为 三 大 部 分 : 基本 功能 、Selenium 中 间 件 开发 和 spider 程序 开发 。 基 本 功能 
items.py. pipelines.py 和 settings.py 实现 ，items.py 和 pipelines.py 实现 数据 存储 功能 ， 将 电影 评论 
存储 在 MySQL 数据 库 里 ， 存 储 过 程 由 SQLAlchemy 完成 ; settings.py 实现 整个 项 目的 功能 配置 ， 
包括 中 间 件 的 注册 、 请 求 头 的 设置 及 存储 功能 IIEM _ PIPELINES 等 。 

打开 配置 文件 settings.py， 将 项 目的 功能 及 相关 配置 写 入 文件 ， 文 件 的 代码 如 下 : 


BOT NAME = 'douban' 

SPIDER MODULES = ['douban.spiders'] 
NEWSPIDER MODULE - 'douban.spiders' 
# ROBOTSTXT OBEY 改 为 False 
ROBOTSTXT OBEY = False 


DEFAULT REQUEST HEADERS = 1 
'Accept': 'text/html,application/xhtml-«xml, 
appircatrony/xml:;q 0.9,*/*:q0-0.8', 
"Accoept-hanguadge'- Ten, 
t 加 上 User-Adent， 人 否则 提示 403 错误 信息 
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'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 
AppleWebKit/537.36 (KHTML, like Gecko) Chrome 
/59.D. 497.100 SaftarTr/537T.36" 


} 

# 注册 自 定义 中 间 件 SeleniumMiddleware 

DOWNLOADER MIDDLEWARES = { 
'douban.middlewares.DoubanDownloaderMiddleware': 543, 
'douban.middlewares.SeleniumMiddleware': 300, 


} 

# 注册 管道 ， 开 启 数 据 存 储 功 能 

ITEM PLPELINES — | 
'douban.pipelines.DoubanPipeline': 300, 

} 

# 设置 Selenium 的 超时 时 间 

SELENIUM TIMEOUT = 30 

import os 

# 设置 配置 文件 conf. ini 路径 信息 

BASE DIR = os.path.dirname(os.path.realpath( file )) 

CONF = ücs.path.jorn(BASE DIR, 'conf.ini') 

# 设置 数据 库 连 接 信息 

MYSQL CONNECTION = 'mysql-«pymysql://root:1234Q 

localhost/spiderdb?charset-utf8mb4' 


配置 文件 setings.py 主要 用 于 修改 功能 配置 及 设置 基本 信息 : 修改 功能 配置 是 对 项 目 己 有 的 配 


置 属性 进行 修改 ,比如 DEFAULT REQUEST HEADERS 和 DOWNLOADER MIDDLEWARES 等 ; 
设置 基本 信息 是 为 项 目 新 增 一 些 配 置 必 性， 如 新 增 配置 文件 confini 和 数据 库 连 接 信 息 。 


数据 库 连 接 编码 使 用 utf8mb4 是 为 了 保证 数据 能 完全 录入 数据 库 ， 因 为 电影 评论 里 可 能 


出 现 某 些 特殊 字符 ， 比 如 手机 特有 的 表情 ,这 些 表情 的 编码 格式 已 超出 utf8 的 编码 范围 ， 


所 以 只 能 选择 utff8gmb4， 数 据 库 spiderdb 在 创建 时 也 要 选择 utf8Smb4 编码 。 


打开 项 目的 items.py 文件 ， 将 项 目 需要 存储 的 字段 在 此 文件 进行 定义 ， 我 们 定义 了 两 个 字段 ， 


分 别 是 电影 ID 和 电影 评论 内 容 ， 如 下 所 示 : 


import scrapy 

class DoubanlItem(scrapy.Item): 
movield = scrapy.Field() 
comment = scrapy.Field() 
pass 


根据 已 定义 的 字段 ， 在 项 目的 pipelines.py 文件 编写 相关 的 数据 存储 过 程 。 文 件 里 定义 了 两 个 
分 别 代 表 数 据 表 映射 类 scrapy db 和 数据 存储 DoubanPipeline， 有 具体 的 定义 方式 如 下 : 


from sqlalchemy import * 

from sqlalchemy.orm import sessionmaker 

from sqlalchemy.ext.declarative import declarative base 
# 导入 setting 配置 信息 


from scrapy.conf import settings 


# 定义 映射 类 
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Base = declarative basel) 
class scrapy dbiBasc): 
tablename = 'douban db' 


id = Column (Integer{), primary key True) 
movield = Column (String(100)) 
comment = Column (String (2000)) 


class DoubanPipeline (object): 
def inib (seif): 

# 初始 化 ， 连 接 数 据 库 
conntion = settings['MYSQL CONNECTION'] 
engine — Credle engincí(conntron,echo-Fabsec,poot Size 2000) 
DBSession = sessionmaker (bind-engine) 
self.SQLsession = DBSession() 
# 创建 数据 表 


Base.metadata.create all (engine) 


def process item(self, item, spider): 
# 入 库 处 理 
Selr.S0hsessTon.execute(scrapy db. table —3snserrt(). 
['comment': stem|'comment']|.-replace("in", ™"), 
"movierd'- 1tem['movield']:) 
self.SQLsession.commit() 
return item 


数据 存储 DoubanPipeline 通过 重 写 初始 化 方法 ”imit 0， 在 DoubanPipeline0 实 例 化 的 时 候 ， 
读 取 配置 文件 settings.py 的 数据 库 连 接 信息 ,并 由 SQLAlchemy 实现 数据 库 连 接 ; J 1X process item() 
是 将 Scrapy 引擎 传递 的 参数 item 写 入 数据 库 并 保存 。 


23.33 NX. Selenium 中 间 件 


配置 文件 settings.py CEM A E XP EJ SeleniumMiddleware， 因 此 在 项 目的 middlewares.py 
文件 里 定义 中 间 件 SeleniumMiddleware， 访 中间 件 是 将 Scrapy 的 HTTP 请 求 改 为 由 Selenium 模块 
实现 ， 代 人 码 如 下 : 

t 自 定义 Selenium 


from selenium import webdriver 

from selenium.webdriver.chrome.options import Options 
from selenium.webdriver.support.ui import WebDriverWait 
from scrapy.http import HtmlResponse 


class SeleniumMiddleware (object): 
def init (self, timeout-None): 
self.timeout-timeout 
self.chrome options-Options() 
self.chrome options.add argument('--headless') 
self.driver-webdriver.Chrome(chrome options-self.chrome options) 
self.wait-WebDriverWait(self.driver, self.timeout) 


def process request(self, request, spider): 
+ 参数 usedselenium 决定 是 否 使 用 Selenium 
if request.meta['usedSelenium!']: 
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try: 
# 生成 一 个 页 面 的 driver 对 象 
self.driver.get (request.url) 
# 直接 返回 啊 应 内 容 
return HtmlResponse (url=—regquest ut 
body=self.driver.page source, 
request-request,encoding-'utf-8', 
status-200) 
EXDLEDES 
# 若 出 现 异常 ， 抛 出 HTTP 状态 码 500 
return HimblBesponsetcrurt-request-urgt, sEatus-»00, 
POJgHOSL PCHMIC SE) 
# 如 不 使 用 selenium， 则 执行 原 有 的 访问 方式 
Fan 
return None 


der del {self}: 
sSelf.driver.closet) 


((classmethod 
def from crawler (cls, crawler): 
+ 读 取 settings.py 的 SELENIUM TIMEOUT 
# 用 于 初始 化 方法 的 实例 化 
return cls(timeout-crawler.settings.get('SELENIUM TIMEOUT'),) 
中 间 件 SeleniumMiddleware 共 定 义 了 4 个 方法 ， 核 心 方法 是 process request(), HERI IEE 
为 核心 方法 提供 相关 数据 和 设置 ， 具 体 说 明 如 下 


e from crawler) 是 类 方法 ， 该 方法 是 从 配置 文件 settingspy 里 读 取 配置 属性 
SELENIUM TIMEOUT， 它 为 初始 化 方法 init 0 的 参数 timeout 提供 具体 的 参数 值 。 

e del OX Python 内 置 的 删除 方法 ， 这 是 对 象 在 销毁 前 所 执行 的 方法 ， 可 理解 为 中 间 件 的 
清理 方法 ， 它 将 Selenium 生成 的 浏览 器 进行 关闭 处 理 。 

e int 0 是 中 间 件 SeleniumMiddleware 的 初始 化 方法 ， 它 是 将 Selenium 进行 实例 化 ， 并 
对 实例 化 对 象 配置 相关 属性 ， 如 浏览 器 无 头 模式 和 超时 时 间 等 。 

€ process iequestO 是 根据 当前 HTTP 请 求 的 参数 usedSelenium 进行 判断 ， 如 果 参 数 为 真 ， 则 
将 当前 请 求 改 为 Selenium 访问 ， 若 访问 过 程 中 出 现 异 常 就 抛 出 HTTP 500， 这 是 代表 当前 
请 求 失败 ; 如 果 参 数 为 假 ， 则 当前 请 求 就 按照 Scrapy 原 有 的 方式 执行 。 


23.3.4 开发 Spider 程序 


项 目的 spider 程序 是 在 项 目的 movie.py 文件 里 实现 ， 从 网 站 分 析 得 知 ， 电 影评 论 页 的 URL 地 
址 带 有 电影 ID, 只 要 切换 不 同 的 卫 就 能 疏 取 不 同 电影 的 评论 。 我 们 将 电影 ID 写 入 配置 文件 confini， 
再 由 splder FE) # 读 取 并 实现 不 同 电影 的 评论 卜 取 。 按 此 设计 ， spider 程序 的 代码 如 下 : 

from douban.items import DoubanItem 

from scrapy.selector import Selector 

from scrapy.spider import Spider, Request 

import configparser 
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class MovieSpider (Spider): 


# 属性 name 必须 设置 ， 而 且 是 唯一 命名 ， 用 于 运行 爬虫 


name — "Movie" 

# 设置 允许 访问 域名 

allowed domains - ["https://movie.douban.com"] 

# WB URL 

start urls = 'https://movie.douban.com/subject/£s/comments? 


start-$s&limit-20&sort-new score&status-P' 

# E start requests 
def start requests (self): 

# 读 取 配置 文件 ， 获 取 电 影 ID 并 生成 列表 

conf = configparser.ConfigParser () 

irishi t — TI 

conft.read(selt.settings.geL('CONFE")) 

temp = conf['config'] 

if 'movieId' in temp.keys(): 

urlsList=conf['config'"]['movieId"] .split(",") 


tor u xn u£lsbhist: 
+ 根据 电影 ID 选择 爬 取 方式 
1f stru) in 'Z6422508535': 


value = True 
else: 
valie — False 


# BENER IER R B YT 6 
for page in range (2): 
url = self. start urls {str (ü), str {page * 20)) 
yield Request(url-url,meta-['movieId':str(u), 
'usedSelenium': valuej,callback-self.parse) 


def parse{self, response): 

# 将 啊 应 内 容 生 成 Selector， 用 于 数据 清洗 

sel eecEor Te mn 

+ 定义 DoubanItem 对 象 

item = DoubanItem() 

comments-sel.xpath('//div[8id-"comments"]//div[G8class-"comment"]") 

for c in comments: 
item['movieId'] = response.meta['movieId'] 
tLem['comment']| = ** -joir"m(c.xpadth(*'.//p/r£spanyczy 

text (} ') .extract ()) .strip() 

yield item 


在 上 述 的 spider 程序 里 ， 电 影评 论 页 的 URL 地址 以 类 属性 start urls 表示 ， 并 且 设 置 两 个 动态 
的 变量 ， 分 别 是 电影 ID 和 评论 页 数 ， 这 样 可 以 爬 取 不 同 电影 的 不 同 页 数 的 评论 。spider FET ES 
start requests) FI parse0 方 法 ， 两 者 实现 的 功能 说 明 如 下 : 
€ start requests() 读 取 配 置 文件 confini 来 获取 电影 ID， 并 将 电影 ID 以 列表 表示 ， 每 个 列表 
元 素 代 表 了 一 部 电影 的 ID. 
e 将 列表 进行 遍历 处 理 ， 如 果 当 前 列表 元 素 (电影 ID ) 为 “26425063”,， 则 参数 usedSelenium 
设 为 True， 中 间 件 SeleniumMiddleware 就 会 使 用 Selenium 访问 当前 的 URL 地 址 。 反 之 ， 
则 将 URL 地 址 按 Scrapy 原 有 的 方式 执行 。 
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e 每 部 电影 进行 两 次 遍历 ， 这 两 次 遍历 是 构建 同一 部 电影 而 不 同 页 数 的 URL 地 址 ， 把 不 同 
页 数 的 URL 地 址 和 相关 参数 发 送 给 Scrapy 引擎 ，Scrapy 引擎 根据 相关 参数 调度 相应 的 中 
间 件 ， 从 而 实现 HITP 请 求 。 
o 当中 间 件 完成 HTTP 请 求 并 将 响应 结果 交 给 Scrapy 引 营 后， 再 由 Scrapy 引擎 调度 parse() 
方法 ， 从 而 实现 数据 存储 。 


从 spider 程序 读 取 配置 文件 confini 的 方式 可 以 知道 ， 每 个 电影 ID 是 以 英文 逗号 进行 拼接 ， 
然后 赋值 给 配置 属性 movield, "ill 23-11 所 示 。 


-] confini - 记事 本 
文件 (F) 编辑 (E) 格式 (D) 查看 (V) 帮助 (H) 


[config] 
movield = 26425063,26636712 


图 23-11 配置 信息 


在 CMD 窗口 或 PyCharm 的 Terminal 窗口 下 输入 指令 scrapy crawl Movie; 启动 并 运行 项 目 
douban。 项 目 运 行 完 成 后 ， 打 开 spiderdb 数据 库 得 看 douban db 数据 表 的 数据 信息 ， 如 图 23-12 所 
7Re 

Ff deuban db Gspiderdb (My... 


j iet 文本 - Y um lEn RAD 民 导出 
movield comment 
b EE 26636712 第 一 个 彩蛋 比 正片 好 看 ? 
2 26636712 ZD-iB30fEA-RRAGDEBERRBRER S M- 
3 26636712 1ER., RU. PIECE. E5, WE. fORRDREDEGSBEDECEG— ARRE, 5i 


4 26636712 ritka, ERIAS . GEEAE. $&AGSEMDBUBDERAA 
5 26636712 BAE f ...... 

6 26636712 MARVELS f TASA REESE Eo E Sem REI 

7 26636712 E-r3BERHSEBTEM. 

8 26636712 EELF T —EERDBECEBEREERS AE ASTER, VEjEREBSOES—TEÉE. 

9 26636712 $DEISRERE—"-EERUNE,IxSEE—ERBMEREÉSS RARA. lESBIEGLRSUBEN 


图 23-12 电影 评论 内 容 


23.4 实战 : Scrapy+Splash MERN B 站 动漫 信息 


Scrapy 框架 也 可 以 与 Splash 模块 结合 使 用 ， 从 Scrapy 框架 结构 可 知 ， 使 用 Splash EE Selenium 
更 有 优势 ， 因 为 Splash 是 一 个 异步 框架 ， 它 与 Scrapy 框架 能 完美 结合 。 
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23.4.1 Scrapy Splash 实现 原理 


scrapy splash 是 Scrapy 的 功能 扩展 包 ， 它 为 开发 者 提供 了 Splash 中 间 件 及 相应 的 HTTP 请 求 
方式 。 在 CMD 窗口 或 PyCharm 的 Terminal 窗口 下 输入 pip 安装 指令 pip install scrapy-splash, 55 
安装 完成 。 人 然后 在 Python 安装 有 目录 下 查看 scrapy splash (Lib\site-packages\scrapy splash) 源码 文 
件 ， 如 图 23-13 所 示 。 

软件 (D:) > Python > Lib > site-packages > scrapy splash > 
修改 日 勘 
2018/10/16 17:49 
A init .py 2018/10/16 17:49 Python File 
la cache.py 2018/10/16 17:49 Python File 


[A cookies.py 2018/10/16 17:49 Python File 
[a dupefilter.py 2018/10/16 17:49 Python File 


[A middleware.py 2018/10/16 17:49 Python File 


[A request.py 2018/10/16 17:49 Python File 
A response.py 2018/10/16 17:49 Python File 


[A responsetypes.py 2018/10/16 17:49 Python File 


[a utils.py 2018/10/16 17:49 Python File 


图 23-13 ”源码 文件 


scrapy splash 共有 5 个 功能 模块 ， 分 别 是 数据 缓存 cache.py、 有 用户 Cookies 信息 cookies.py、 
中 间 件 middleware.py、HTTP 请 求 方式 request.py 和 啊 应 内 容 response.py。 各 个 功能 模块 说 明 如 下 : 

€ cache.py 定义 SplashAwareFSCacheStorage 类 ， 并 继承 Scrapy 的 FilesystemCacheStorage 组 
存 类 ， 由 此 可 见 ，scrapy splash 的 缓存 功能 是 在 Scrapy 原 有 的 缓存 功能 上 进行 修改 。 

* cookies.py 定义 了 多 个 Cookies 格式 转换 函数 ， 比 如 将 HAR 格式 转化 成 字典 格式 。 

e middleware.py 分 别 定 义 了 一 个 SpiderMiddleware 中 间 件 和 两 个 DownloaderMiddleware 中 
间 件 ， 这 是 scrapy splash 的 核心 功能 。 

è request.py 定义 HTTP 的 GET 请 求 和 POST 请 求 ， 以 SplashRequest 和 SplashFormRequest 
类 表示 ， 这 是 改变 Scrapy 原 有 的 HTTP 请 求 方式 。 

è response.py 定义 响应 内 容 的 数据 格式 ， 以 SplashTextResponse 和 SplashJsonResponse 类 表 
示 ， 这 也 是 改变 Scrapy 原 有 的 HTTP 响应 方式 。 


大 致 了 解 scrapy splash 的 原理 后 ， 接 下 来 通过 一 个 简单 的 项 目 来 掌握 如 何 使 用 scrapy splash 
模块 实现 疏 虫 开发 。 


23.4.0 ”网 站 分 析 


在 开 肥 爬虫 程序 之 前 ， 需 要 对 网 站 进行 详细 分 析 ， 根 据 分 析 结 朱 制 定 相应 的 开 上 友 流 程 。 在 浏 
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岩 圳 上 打开 了 站 已 完结 动画 列表 Chttps://www.bilibili.com/v/anime/finish/Z/all/default/0/1/) ， 并 利用 
开发 者 工具 分 析 网 页 内 容 ， 如 图 23-14 所 示 。 


ents Console Sources Network Performance Memory 


T «div class-"vd-list-cnt'» 


v«ul class-"vd-list mod-2 > 
v «11» 
<div class= I-item > . 
v«div class-"l'"» 
v«div class-"spread-module'"» 
¥<a href-"/video/av32766821/" target="_blank"> 
¥<div class="pic™> 
v«div class- lazy-img >» 
«img alt=" [&G 6&1]. " src-"/fii.hdslb.co 


图 23-14 网 页 分 析 


Splash 获取 网 页 的 啊 应 内 容 与 Selenium 的 一 致 ， 因 此 在 开 上 者 工具 的 Elements 标签 里 分 析 网 
页 内 容 即 可 。 从 网 页 结构 分 析 得 知 ， 当 前 网 页 的 所 有 动画 信息 在 属性 class 为 vd-list-cnt 的 div 标签 
里 ， 而 每 部 动画 信息 是 在 1 标签 里 。 

在 网 页 的 下 方 设 置 分 页 功能 ， 当 单 击 第 二 页 和 第 三 页 的 时 候 ， 网 页 的 URL 地 址 随 之 变化 ， 发 
现 当 前 页 数 与 URL 最 末 病 的 数字 相互 对 应 ， 如 图 23-15 所 示 。 


完结 动画 - HEHE ( c. )oc X + 


E i https:;//www.bilibili.com/v/animej/ftinish/*/all/default/O/1/ 
p 


TARE - HEHE ({ - )oc X + 


ir ia https://www.bilibili.com/v/anime/finish/#/all/default/0/2/ 


完结 动画 - MPIRE (o ` X 十 


G í https://www.bilibili.com/v/anime/ftinish/*/all/default/O/3/ 


[]23-15 URL 变化 规律 


综合 上 述 分 析 ， 只 要 将 URL RRMA ATF RIISA JBDXSE t EL AP [8] HJ CUR RT RT 15-3 AF] 
的 网 页 内 容 ， 然 后 清洗 网 页 信息 并 提取 动画 信息 。 
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23.4.3 项目 设计 与 实现 


根据 上 述 分 析 进 行 Scrapy WH it, E CMD 命令 提示 和 从 窗口 下 创建 Scrapy 项 目 ， 项 目 名 为 
dongman， 并 且 在 spiders 文件 夹 里 创建 finishOpera.py 文件 ， 整 个 项 目的 目录 结构 如 图 23-16 所 示 。 
dong man D'\don gman 


dongman 


spiders 


& init .py 
a finishOpera.py 


& Init .py 
a items.py 
a middlewares.py 
2. pipelines.py 
a settings.py 
H scrapy.cfg 
图 23-16 dongman 的 目录 结构 


整个 项 目 功能 分 为 两 部 分 : 基本 功能 和 spider 程 订 开发。 基本 功能 是 由 items.py、Ppipelines.py 
和 settings.py 实现 : items.py 和 pipelines.py 实现 数据 存储 功能 ， 将 动 男 信 息 存 储 在 MySQL 数据 库 
里 ， 存 储 过 程 由 SQLAlchemy 完成 ; settings.py 实现 整个 项 目的 功能 配置 ， 包括 Splash P EENE 
朋 、Splash 配置 属性 及 存储 功能 ITEM PIPELINES 等 。 

打开 配置 文件 settings.py， 将 项 目的 功能 以 及 相关 配置 写 入 文件 ， 文 件 的 代码 如 下 所 示 : 


BOT NAME = 'dongman' 
SPIDER MODULES = ['dongman.spiders'] 
NEWSPIDER MODULE - 'dongman.spiders' 
+ UL7J False 
EOBOTSTXT OBEY — False 
# 注册 scrapy splash 的 中 间 件 
SPIDER MIDDLEWARES = f{ 
'scrapy Ssplash.SplashDeduplicateArgsMiddleware': 100, 
+ 'dongman.middlewares.DongmanSpiderMiddleware': 543, 
) 
# 注册 scrapy splash 和 scrapy 内 置 的 中 间 件 
DOWNLOADER MIDDLEWARES = { 
'scrapy splash.SplashCookiesMiddleware': 723, 
'scrapy splash.SplashMiddleware': 725, 
'Sscrapy.downloadermiddlewares.httpcompression. 
HttpCompressionMiddleware': 810, 
} 
# 设置 scrapy splash 配置 属性 
SPLASH UBL = 'http://192.168.99.100:8050/' 
# 去 重 过 滤器 
DUPEFILTER CLASS-'scrapy splash.SplashAwareDupeFilter' 
# HEX HTTP 缓存 机 制 


HTTPCACHE STORAGE= scrapy Splash.SplashAwareFSCachesStorage' 
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# 设置 cookies， 记 录 所 有 请 求 的 发 送 和 接收 Cookies 
SPLASH COOKIES DEBUG = True 
# 数据 库 连 接 信息 
MYSQL CONNECTION = 'mysql-«pymysql://root:1234Q 
localhost/spiderdb?charset-utf8mb4' 
ITEM PIEBRLINES = 41 
'dongman.pipelines.DongmanPipeline': 300, 
} 


配置 文件 settings.py 主要 十 注册 scrapy splash 的 三 个 中 间 件 及 设置 相关 属性 ， 每 个 配置 的 属 
性 值 是 来 自 scrapy splash 的 源码 文件 ,如 配置 属性 DUPEFILTER CLASS. 它 的 属性 值 是 源码 文件 
dupefilter.py 的 SplashAwareDupeFilter 类 。 

接着 打开 项 目的 items.py 文件 ， 将 项 目 需要 存储 的 字段 在 此 文件 进行 定义 。 本 项 目 疏 取 每 部 
动画 的 名 字 、 简 介 、 观 看 人 数 和 阐 幕 数量 ， 分 别 对 应 的 字段 为 name. desc. viewNumber 和 


captionsNum， 如 下 所 示 : 


import scrapy 

class DongmanlItem(í(scrapy.Itiem): 
name — scrapy.Field() 
desc = scrapy.Field() 
viewNumber = scrapy.Field() 
captionsNum = scrapy.Field() 


最 后 在 项 目的 pipelines.py 文件 编写 相关 的 数据 存储 过 程 。 我 们 定义 两 个 类 ， 分 别 代表 数据 表 


映射 类 scrapy db 和 数据 存储 DongmanPipeline， 具 体 的 定义 方式 如 下 : 


from sqlalchemy import * 

from sqlalchemy.orm import sessionmaker 

from sqlalchemy.ext.declarative import declarative base 
from scrapy.conf import settings 


# 定义 映射 类 
Base = declarative basel) 
class scrapy db (Base): 
tablename = "'dongman db' 
id = Column(Integer(), primary key True) 
name = Column (String (100)) 
desc = Column (String (2000)) 
viewNumber = Column(String(50)) 
captionsNum = Column (String (50)) 


class DongmanPipeline (object): 
def init (selfi: 

# 初始 化 ， 连 接 数 据 库 
conntion = settings['MYSQL CONNECTION'] 
engine = create engine(conntion,echo-False,pool size-2000) 
DBSession - sessionmaker (bind-engine) 
self.SQLsession = DBSession() 
# 创建 数据 表 


Base.metadata.create all (engine) 


def process item(self, item, spider): 


LAFER 
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self.SQLsesslon-execute (scrapy db. table  .1nsert(), 
['name': item['name'], 
'desc': item['desc'], 


'viewNumber': item['viewNumber'], 
'captionsNum': item['captionsNum']]j) 
self.SQLsession.commit() 
return item 


23.4.4 开发 Spider 程序 


从 网 站 分 析 得 知 ， 已 完结 动画 的 URL 最 末 冰 的 数字 代表 页 数 ， 只 要 切换 不 同 的 数值 承 能 爬 取 
不 同 页 面 的 动画 信息 。Spider 程序 需要 将 不 同 的 URL 地 址 交 给 scrapy splash 访问 并 获取 相应 的 网 
页 内 容 ， 实 现代 码 如 下 : 


from scrapy import Spider 

from scrapy splash import SplashRequest 
from dongman.items import DongmanItem 
from scrapy.selector import Selector 


class SplashSpider (Spider): 
name = 'finish opera' 
start urls = 'https://www.bilibili.com/v/anime/ 
finish/£/all/default/0/$s/' 


# 将 Scrapy 的 request MH SplashRequest 
def start reguestsiselr- 
for page in range(2): 


url = sélr- start uris sSis5tripadgerij) 
headers = { 
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; 


Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) 
chrome;69.0.3497.100 Safari/537.36" 


} 
# 设置 请 求 信息 
args — ( 
"watt 535 
eaers o Hgdegs 
+ UH Cookies 
E "cookies": [Thello!: 'Python"! 
FOWETGEIP 
i "proxy": "hbbp:y/181.200- 153-236 tB 123", 


} 
yield SplashRequest(url, self.parse, args-args) 


der parseisolb, response): 
# 将 啊 应 内 容 生 成 Selector， 用 于 数据 清洗 
sel 5ecfcchior(cPc3ponmsc) 
# 定义 DongmanItem 对 象 
item = DongmanItem() 
info list=sel.xpath('//div[@class="vd-list-cnt"]/ul/lıi"'")} 
Lor i in anto listi: 
item['name'| ~ *'*.join(1.xpath('.//div/divi2]/ 
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a/text ()}') .extract ()) .strip() 
ttem|'desc'| — *'*.join(1.xpath('.//div/divI2Z1/ 
div[l]/text()') .extract ()) .strip() 
item['viewNumber']-''.join(i.xpath('.//div/div[2]/div[2]/ 
span[l]/span/text()').extract()).strip(t) 
item['captionsNum']-2''.join(i.xpath('.//div/div[2]/div[2]/ 
span[2] /span/text ()} ') .extract ()) .strip() 
yield item 


在 上 述 Spider 程序 里 , 动画 信息 的 URL 地 址 以 类 属性 sk 表示 ， 并 将 末 闹 的 数字 设 为 动 
SEE, 这样 可 以 得 到 不 同 页 数 的 动画 信息 。Spider 程序 信息 还 重 写 start_requests() 和 parseQ77 i£; 
两 者 实现 的 功能 说 明 如 下 : 


e start_requests() 执 行 两 次 循环 ， 每 次 循环 用 于 构建 不 同 页 数 的 URL 地 址 ， 本 例 只 构建 了 第 
一 页 和 第 二 页 的 动画 信息 。 

e@ 每 次 循环 设 有 变量 headers 和 args， 变 量 headers 是 请 求 头 ，args 是 设置 scrapy splash 的 请 
求 信 息 ， 比 如 wat 是 等 待 加 载 时 间 、headers 是 设置 请 求 头 、cookies 是 为 当前 请 求 添加 
Cookies 信息 等 。 

e 最 后 生成 请 求 对 第 是 由 scrapy splash 的 SplashRequestO 实 现 ， 这 是 在 Scrapy 的 Request() 
基础 上 进行 自 定义 ， 使 当前 请 求 在 遵循 Scrapy 的 规则 下 实现 Splash 访问 URL 地 址 。 

e parse() 的 参数 response 是 由 scrapy splash 定义 的 中 间 件 生成 ， 数 据 的 清洗 方式 是 从 开发 者 
工具 的 Elements 标签 分 析 网 页 内 容 得 知 


运行 项 目 之 前 ， on ja — 服务 器 ， 在 电脑 上 找到 Docker Quickstart Terminal 图 标 并 
双击 运行 。 成 功 司 动 Docker 之 后 ， 输 入 Splash 启动 指令 docker run -p 8050:8050 scrapinghub/splash 
et 


$ docker run -p 8050:8050 scrapinzhub/splash 

2018-11-12 08:18.. og opened. 

5018-11-12 08:18:56. 742827 Spl: ash versioni 3.2 

2015-11-12 08:18:56. 7/4236 Qt 5.9.1, PyQt 5.9, VebKit 602.1, sip 4. 
2015-11-12 UB:li8:b5b, ridoDr Dudo: 3. 5,9 default. Noy Zó "ya Ibi: 
7018-11-12 08:18:56, 775068 pen files limt: 1048576 

2018-11-12 08:18:56. 77533 d t bump open files limit 

por uas 08:18:56.913411 is started: [ Xvfb : 16794854 


DStandardPaths: XDG RUNTIME DIR not set, defaulting to  /tmp/runtime-root 
2018-11-12 08:18:58, F857bD | proxy profiles support 1s enabled, proxy pi 
2015-11-12 08:18:59, 374965 | verbos lty-l 

2018-11-12 08:18:59, 375385 slots-5Ü 

2015-11-12 08:18:59. 3756057 argument cache max  entries-500 

-18-11-1e On: lo, Sibone Yeb UI: enabled, Lua: enabled (sandbox! eni 
2015-11-12 08:15:59. 3f (1i Server listening on U. 0. 0. 0:5050 
2018-11-12 08:18:59, 378630 [-] Site starting on 8050 

2018-11-12 08:18:59, 37911: Starting factory &twlsted.web. serv 


图 23-17 开启 Splash 服务 器 


最 后 在 CMD 窗口 或 PyCharm 的 Terminal 窗口 下 输入 指令 scrapy crawl finish. opera; 局 动 并 运 
行 项 目 dongman。 项 目 运 行 完成 后 ， 打 开 spiderdb 数据 库 查 看 dongman db 数据 表 的 数据 信息 ， 如 
图 23-18 所 示 。 
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nee A dongman db @spiderdb (... 


E 开始 事务 zé- Yma licum 四 导入 RSH 
id name desc 

> E] 【36op/pvprip] 网 球 王 子 一 人 的 武士 + 迹 部 的 礼物 【空间 字幕 组 空间 字幕 组 买 了 国语 版 权 了 
【408P/ 日 语 / 剧 场 版 ] 网 球 王子 二 人 的 武士 【 红 旅 动漫] 红 旅 动漫 青学 网 球 部 受 一 位 
【DVDRip]】 网 球 王子 PRINCE OF TENNIS Moviel [toz] 网 络 《二 人 的 武士 }》 在 结束 
【剧场 版 网 球 王子 】 迹 部 的 礼物 迹 部 为 了 庆祝 梯 地 的 生日 ，3 
[剧场 版 网 球 王子 】 二 人 的 武士 青学 网 球 部 受 一 位 富豪 ( 
【480p/ 日 语 生肉 】 甜 灾 小 天 使 /神秘 的 小 冠 SLE 全 64+ 剧 场 2 - 网 络 射 密 小 天 使 /神秘 的 小 半 


Coo W 和 和 1 中 
* FROM spiderdb dongman db' LIMIT ! 第 1 条 记录 ( 共 4 可 条 于 第 1 页 


图 23-18 ”动画 信息 


23.5 实战 : Scrapy*Redis 分 布 式 翁 取 猫 眼 排行 榜 


分 布 式 朴 虫 好 比 再 房子 一 样 ， 如 果 1 个 人 埋 一 栋 房 子 ， 他 完成 任务 的 时 间 相 对 较 长 ,看 20 个 
人 同时 兹 一 栋 房 了 于， 这样 的 工作 效率 驶 大 大 提升 ， 完 成 任务 的 工作 时 间 也 相应 减少 。 分 布 式 爬虫 驶 
是 将 一 个 朴 虫 任务 分 给 多 个 相同 的 爬虫 程序 同时 执行 ， 而 且 每 个 爬 囊 程序 所 疏 取 的 内 容 各 不 相同 。 


23.5.1 Scrapy Redis 实现 原理 
用 Scrapy E RER KMO AEE 5 3E HJ Redis 数据 库 才 能 实现 , 它 的 实现 过 程 与 第 18 章 


JEI QQ 音乐 的 实现 有 所 不 同 。Redis 数据 库 在 此 担任 了 任务 队列 的 作用 ， 负 责 调度 各 个 疏 虫 程序 
的 候 取 内 容 ， 以 便 有 效 控制 每 个 候 忠 程序 之 间 的 重复 候 取 问题 。 分 布 式 原理 图 如 图 23-19 所 示 。 


Hequests 


Requests 
Items 


Items Downloader 
Middlewares 


Requests 


Spider 


Middlewares 


图 23-19 Scrapy Redis 原理 图 
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Scrapy_Redis 的 分 布 式 架构 是 在 Scrapy 的 架构 上 进行 修改 和 扩展 而 来 ， 既 保留 了 Scrapy 的 
Twisted 异步 框 染 功 能 ， 叉 新 增 了 分 布 式 功能 。 新 增 的 分 布 式 功能 说 明 如 下 : 


Scrapy Redis 的 分 布 式 原理 是 指 多 个 相同 的 爬虫 程序 同时 执行 ， 每 个 爬虫 程序 在 执行 期 间 
都 会 向 Redis 数据 库 获 取 任 务 ， 根 据 任 务 疏 取 相 应 的 数据 、 

如 果 爬 取 数 据 的 URL 地 址 已 保存 在 Redis ZEE, JE ZR SUEUT TEN IE URL 地 址 进行 
JR, 

如 果 URL 地 址 不 在 Redis 4È, RREFERA URL HIRR, JE EJ T URL 
信息 写 入 Redis 34E E, Eric S486 S8 3$ AURIS 


Scrapy Redis 是 Scrapy ERR- JE, "CUUB C BURHTUESCAUR, JenUrAd RU 
安装 该 模块 即 可 使 用 。 在 CMD 窗口 或 PyCharm 的 Terminal 窗口 下 输入 pip 安装 指令 pip install 


scrapy-redis ， 


并 等 竺 安装 完成 。 然 后 在 Python 安装 目录 下 查看 scrapy Redis 


(Lib\site-packages\scrapy redis) 源码 文件 ， 如 图 23-20 所 示 。 


软件 (D: > Python > Lib > site-packages > scrapy redis > 


Ps 


ER ISH RH 
(4 _pycache_ 
A init .py 

[A connection.py 
A defaults.py 
A dupefilter.py 


Python File 
Python File 
Python File 
Python File 


2018/10/10 14:37 
2018/10/10 14:37 
2018/10/10 14:37 


A picklecompat.py 
A pipelines.py 

|? queue.py 

六 scheduler.py 


A spiders.py 


2018/10/10 14:37 
2018/10/10 14:37 
2018/10/10 14:37 
2018/10/10 14:37 
2018/10/10 14:37 


Python File 
Python File 
Python File 
Python File 
Python File 


2018/10/10 14:37 


Python File 


A utils.py 


图 23-20  Scrapy Redis 源码 文件 


Scrapy Redis 共有 10 PIII AIF, RES SCTE TA vi SPURS EADAE, CPEE EC UR HITS 
关系 ， 从 而 实现 整个 分 布 式 功能 。 每 个 文件 的 功能 说 明 如 下 : 


int .py 是 初始 化 文件 ， 在 Scrapy 调用 Scrapy Redis 的 时 候 ， 首 先 执行 Redis 数据 库 连 


接 。 数 据 库 连接 的 函数 在 connection.py 里 定义 。 

connection.py 是 通过 Redis 模块 实现 Redis 数据 库 连 接 。 函 数 get redis from settingsO 是 从 
Scrapy 的 配置 文件 settings.py iXX 86 EN g, HIA 9&2 get redisO 实 现 数据 库 连 接 。 
defaults.py 设置 Scrapy-Redis 的 基本 配置 。 如 果 在 Scrapy 项 目 没 有 配置 相关 属性 ， 则 使 用 
该 文件 的 配置 信息 。 

dupefilterpy 重 写 了 Scrapy 原 有 的 判断 重复 爬 取 功能 。RFPDupeFilter 是 继承 
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BaseDupeFilter, 父 类 是 Scrapy 原 有 的 判 重 功能 类 , RFPDupeFilter 类 是 在 此 基础 上 与 Redis 
数据 库 结合 ， 将 已 疏 取 的 URL 地 址 按 一 定 的 规则 写 入 Redis 数据 库 。 

èe picklecompat.py 定义 了 loads0 和 dumpsO 函 数 ， 这 是 将 数据 转化 成 厅 列 化 格式 ， 再 将 其 存 
储 在 Redis 数据 库 ， 这 样 可 以 解决 Redis 数据 库 写 入 数据 的 格式 问题 。 

€ pipelines.py 定义 一 个 item pipieline 类 ， 它 与 Scrapy 的 item pipeline 类 是 同一 个 对 和 象 ， 并 且 
调用 了 connection.py 的 函数 ， 实 现 Redis 数据 库 连 接 和 数据 入 库 。 

© queue.py 定义 分 布 式 爬虫 的 任务 队列 ， 任 务 队列 的 方式 有 队列 、 栈 和 优先 级 队列 ， 主 要 为 
调度 器 提供 调度 方式 。 

e schedulerpy 定义 分 布 式 爬 虫 的 调度 器 ， 使 其 代替 Scrapy 原 有 的 调度 器 ， 调 度 方 式 由 
queue.py 的 函数 实现 。 在 分 布 式 疏 虫 运行 的 时 候 ， 多 台 计 算 机 运行 同一 个 Scrapy AEA, 每 
台 计 算 机 的 调度 器 都 是 相同 的 ， 并 且 连 接 同 一 个 Redis 数据 库 ， 当 一 个 调度 器 发 生变 化 的 
时 候 ， 其 他 也 随 之 变化 ， 因 此 可 以 将 多 个 调度 器 看 成 一 个 调度 池 ， 每 台 计 算 机 的 已 中 程序 
由 调度 池 统 一 管理 ， 从 而 实现 分 布 式 疏 虫 之 间 的 统一 调度 。 

€ spiders.py 重 写 Scrapy 原 有 的 Spider RRA A, iit connection.py 的 函数 将 自 定 义 Spider 
连接 到 Redis 数据 库 , 然后 由 next requests) F ZA Redis 中 取出 URL 地 址 进行 恨 取 ,Spider 
从 Redis 中 去 除 URL 地 址 须 经 过 调度 器 统一 调度 才能 执行 。 

e utils.py 定义 Scrapy Redis 的 编码 格式 ， 使 其 兼容 Python2 和 Python3 版 本 。 


总 的 来 说 ,Scrapy Redis 3 E 5 Scrapy JEU I] Us] BE g& Scheduler 和 Spider, 使 Scheduler. Spider 
和 Redis 数据 库 实 现 相 互 连 接 ， 并 以 Redis 数据 库 的 数据 为 准 ， 由 Scheduler 统一 调度 各 个 Spider 
执行 数据 爬 取 ， 调 度 堪 的 调度 方式 和 判 重 功能 分 别 由 queue.py 和 dupefilter.py 实现 。 


23.5.2 安装 Redis 数据 库 


在 开发 Scrapy 分 布 式 爬 虫 之 前 ， 首 先 需 要 安装 Redis 数据 库 ， 在 Windows 中 安装 Redis 数据 
库 有 两 种 方式 : 在 官网 下 载 压缩 包 安 装 或 者 在 GitHub 下 载 MSI 安装 程序 。 前 者 的 数据 库 版 本 是 最 
新 的 ,但 需要 通过 指令 安装 并 设置 相关 的 环境 配置 后 者 是 旧版 本 ， 但 安装 方法 是 傻瓜 式 安 装 ， 司 
动 程序 后 单 击 按钮 即 可 完成 安 疫 。 两 者 的 下 载 地 址 如 下 : 

# 官网 下 载 地 址 

https://redis.io/download 

# github 下 载 地 址 

https://github.com/MicrosoftArchive/redis/releases 

Redis 数据 库 的 安装 过 程 本 书 就 不 详细 讲述 了 , 读者 可 以 自行 查阅 相关 的 资料 。 除了 安装 Redis 
数据 库 之 外 ， 还 可 以 安装 Redis 数据 库 的 可 视 化 工具 ， 可 视 化 工具 可 以 帮助 初次 接触 Redis 的 读者 
了 解数 据 库 结构 。 本 书 使 用 Redis Desktop Manager 作为 Redis 的 可 视 化 工具 ， 如 图 23-21 所 示 。 
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时 Redis 
Q dbo 
ES Redis Desktop Manager 


Q dis z Version 0.9. 3.617 Developed by — Igor Malinowskiy in E yon 


db4 
o A Raport issue e idis MA Join Gitter Chat y Follow o) Star! 


Quos ised third party software and images: Qt, QRedisClient, toogle Bresakpad, Icons from iconsBH.com Redis Logo. 


Q bi 
=: db7 


Qe 
2018-05-29 Reg. : App log init: DK 
Qu EE 2018-08-29 11:28:43 : Connection: AUTH 
r 2018-ü08-29 : 29:d3 : Üonnection: MyRedis > connected 
Qu: o) 2018-08-23 11:28:43 : Connection: MyRedis > [runtomnand] PING 
Qui (0) 2018-00-29 “2B: : Connection: MyRedis > Response received : +tPONG 


E Log 


Qd? AY 2018-06-29 : 28: : Connection: M 


图 23-21 Redis Desktop Manager 


23.5.3 网 站 分 析 


在 浏览 器 上 打开 猫眼 电影 TOP 100 Ej (http://maoyan.com/board/4) ， 并 利用 开发 者 工具 分 析 
网 页 内 容 。 由 于 Scrapy Redis 是 采用 网 站 API 的 方式 爬 取 目 标 数 据 ,， 因 此 在 开发 者 工具 的 Network 
标签 下 分 析 网 站 ， 如 图 23-22 所 示 。 


Ep 


d^ rg 
fiz e 主演 : KEARSKE MNA 
CONCUBINA 上 上 映 时 间 : 1993-01-01 


Te ooa cm dom Bai |o AZ 
am 
[a kai Va 


Performance Memory Application Security Audits 


Group by frame | LJ Preserve log LJ Disable cache | O Offline Online Y 


All | XHR J5 C55 Img Media Font WS Manifest Other 


eaders Preview Response Cookies Timing 
V 起 工 剖 王 SUDOOSTOUTITCETWTCOITCEITC 72 
«div class-"movie-item-info"» 
p classs"name"»«a hrefz"/films/1203" title=" FAE" data-act-"boarditem-click" data-vals"imovieId:1203]l"» gà E BE. 
«p classs"star"» 


Xm: kE SEES ,巩俐 
«</p> 


«p classs"releasetime"» [BRhgjjg: 1993-81-81</p> 
«div classs"movie-item-number score-num"» 
p classs"score"»«1 classs"integer"59.4/i»4i classs"fraction"»6«/i»4/p» 


图 23-22 网 页 分 析 


从 网 页 结构 分 析 得 知 ， 当 前 网 页 所 有 的 电影 信息 在 属性 class 为 board-wrapper 的 dl 标签 里 ， 
每 部 电影 的 详细 信息 在 属性 class 为 board-item-content 的 div 标签 里 。 当 单 击 网 页 最 下 方 的 分 页 按 
钮 的 时 候 ， 发 现 URL 地 址 随 之 发 生变 化 ， 新 增 了 请 求 参 数 offset， 这 是 代表 100 部 电影 的 偏 移 量 ， 
如 图 23-23 所 示 。 
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TOP100 榜 - 猫 艰 电影 - 一 网 打 5 X 十 


Q © 不 安全 | maoyan.com/board/4?offset=0 


€- 
TA 


= 


Q © 不 安全 | maoyan.com/board/4?offset=10 


e 
^» TOP100 榜 - 猫眼 电影 - 一 网 打 X + 
e 


A TOP100 榜 - HREF -MHE X — 


€ C 不 安全 | maoyan.com/board/4?offset- 20 


图 23-23 URL 地 址 变化 规律 


请 求 参 数 offset 从 0 开始 ， 并 以 10 进行 递增 ， 第 一 页 的 参数 值 为 0、 第 二 页 的 参数 值 为 10、 


第 三 页 的 参数 值 为 20…… 以 此 类 推 ， 得 出 请 求 参 数 offset 的 变化 规律 为 pX10，Pp 代表 页 数 并 且 从 
0 开始 计算 。 


23.5.4 ”项 目 设 计 与 实现 


根据 分 析 结 果 设 计 Scrapy 项目, 在 CMD 命 令 提示 和 从 窗口 下 创建 Scrapy 项 目 ,项 目 名 为 maoyan， 
Jf H.YE spiders 文件 夹 里 创建 movieTop.py 文件 ， 整 个 项 目的 目录 结构 如 图 23-24 所 示 。 


maoyan D:\maoyan 
maoyan 
spiders 
2 Init .py 
a movieTop.py 


2 Init .py 
a items.py 
a middlewares.py 
a pipelines.py 
a settings.py 
H scrapy.cfg 


图 23-24 maoyan 的 目录 结构 


在 本 项 目 需要 加 入 Scrapy Redis 功能 模块 ， 在 配置 文件 settings.py 设置 Scrapy Redis 的 配置 
属性 即 可 ; 从 网 页 上 扑 取 的 电影 名 、 演 员 人 信息、 上 映 时 间 和 评分 存储 在 MySQL 数据 库 里 ， 存 储 过 
程 由 SQLAlchemy 完成 。 

首先 打开 配置 文件 settings.py， 将 Scrapy Redis 的 功能 以 及 相关 配置 写 入 文件 ， 代 码 如 下 : 


BOT NAME = 'maoyan' 
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SPIDER MODULES - ['maoyan.spiders'] 
NEWSPIDER MODULE - 'maoyan.spiders' 
# UU False 

HOBOTSTXT OBEY = False 

# 设置 请 求 头 

DEFAULT REQUEST HEADERS = 二 

'Accept': 'text/html,application/xhtml-«xml, 

application/xml;q=0.9,*/*;q=0.8", 

"ACCept Language: Sn, 

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 
AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/69.0.3497.100 Safari/537.36' 

} 


t 设置 Scrapy-Redis 的 管道 RedisPipeline 

ITEM PIPELINES — 4 
'maoyan.pipelines.MaoyanPipeline': 300, 
'Scrapy redis.pipelines.RedisPipeline': 400 


} 


# 启用 Redis 调度 存储 请 求 队列 

SCHEDULER-"scrapy redis.scheduler.Scheduler" 

# 确保 所 有 的 爬虫 通过 Redis 去 重 

DUPEFILTER CLASS-"scrapy redis.dupefilter.RFPDupeFilter" 
# 允许 暂停 ，Redis 数据 不 会 丢失 

SGUHEDULEBE PEBSIST = TTrTUE 

# 默认 的 请 求 队列 顺序 

SCHEDULER QUEUE CLASS-"scrapy redis.queue.SpiderPriorityQueue" 
E + 队列 形式 ， 请 求 先 进 先 出 

i SCHEDULER QUEUE CLASS-"scrapy redis.queue.SpiderQueue" 
FO4 栈 形式 ， 请 求 先 进 后 出 

i SCHEDULER QUEUE CLASS-"scrapy redis.queue.SpiderStack" 
# 设置 Redis 数据 库 连 接 信息 


REDIS UBL = 'redis-/ylocalhost:63/95/' 
# MySQL 数据 库 连 接 信息 
MYSQL CONNECTION = 'mysql-«pymysql://root:1234Q 


localhost/spiderdb?charset-utf8mb4' 


配置 文件 setings.py 主要 配置 Scrapy Redis 的 功能 , 其 中 配置 属性 SCHEDULER 是 改变 Scrapy 
原 有 的 调度 器 。 当 项 目 运行 的 时 候 ，Scrapy 从 配置 文件 读 取 配置 信息 ， 根 据 配 置信 息 运 行 
Scrapy Redis 的 功能 ， 使 得 整个 项 目的 调度 器 Scheduler 和 Spider 缘由 Scrapy Redis 定义 ， 从 而 实 


BLA TR XUI HR 


名 、 


接着 打开 项 目的 items.py 文件 ， 将 项 目 需要 存储 的 字段 在 此 文件 进行 定义 。 每 部 电影 的 电影 
淘 员 信息 、 上 映 时 间 和 评分 都 与 字段 name. desc. viewNumber 和 captionsNum 相互 对 应 ， 如 


b Hz: 


import scrapy 
class Maoyanttem(scrapy.Iterm) : 


movieName = scrapy.Field() 
performer = scrapy.Field() 
releasetime - scrapy.Field() 


score = scrapy.Field() 
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pass 


最 后 在 项 目的 pipelines.py 文件 编写 相关 的 数据 存储 过 程 。 该 文件 里 定义 了 两 个 类 ， 分 别 代 表 
数据 表 映 射 类 scrapy db 和 数据 存储 MaoyanPipeline， 定 义 方式 如 下 : 


from sqlalchemy import * 

from sqlalchemy.orm import sessionmaker 

from sqlalchemy.ext.declarative import declarative base 
from scrapy.conf import settings 


# 定义 映射 类 

Base = declarative baset) 

class scrapy db (Base): 

tablename = 'maoyan db 

1d — Corlumn(integer(), primary key Trie) 
movieName = Column (String (100)) 
performer = Column (String (100)) 
releasetime = Column (String (200)) 
score = Column(String (100)) 


class MaoyanPipeline (object): 
def init (selfi: 
# 初始 化 ， 连 接 数据 库 
conntion = settings['MYSQL CONNECTION'] 
engine-create engine(conntion,echo-False,pool size-2000) 


DBSession = sessionmaker (bind-engine) 
self.SQLsession = DBSession() 
# 创建 数据 表 


Base.metadata.create all (engine) 


def process item(self, item, spider): 


# 入 库 处 理 

Self.SQLsesslon-.-execute (scrapy db. table .insert(), 
('movieName': item['movieName'], 
'performer': item['performer'], 
'releasetime': item['releasetime'], 
"score": gqrem]'score"]r) 


self.SQLsession.commit() 
return item 


23.5.5 开发 Spider 程序 


由 于 网 页 的 URL 地 址 只 有 请 求 参数 offset， 参 数值 的 变化 规律 为 pX10，Pp 代表 页 数 并 且 从 0 
开始 计算 。spider 程序 只 需 循 环 10 次 ， 由 每 次 循环 的 次 数 来 构建 URL 地 址 即 可 获取 不 同 页 数 的 电 
影 信 息 ， 实 现代 码 如 下 : 


from maoyan.items import MaoyanItem 
from scrapy.selector import Selector 
from scrapy.spider import Spider, Request 
class MovieSpider (Spider): 
# 属性 name 必须 设置 ， 而 且 是 唯一 命名 ， 用 于 运行 爬虫 


name = "Movie" 
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# 设置 允许 访问 域名 
allowed domains - ["maoyan.com"] 
# RA URL 
start urls-'http://maoyan.com/board/4?offset-$s' 
# E5 start requests 
def start reguests5iselr 
# TOP100 的 电影 共 10 页 ， 则 循环 10 次 
for page in range(10): 
url = self- Start urls sí5trE(tpage * 10)} 
yield Request (url-url,callback-self.parse) 


def parse{seli, response: 
# 将 啊 应 内 容 生 成 Selector， 用 于 数据 清洗 
sel 5cTOCCcLOPIECSDDIDSE) 
+ 定义 DoubanItem 对 象 
item = MaoyanItem() 
infoList = sel.xpath('//dl[8class-"board-wrapper"]//dd') 
Lor c in infiocbLbrst: 


item['movieName'] = ''.join(c.xpath('.//p[8class- 
"name"q//texttc)').extracEOQ .stripl{) 
item["'pertormer'] = ''-jein(c.xpath['.//p[8class- 
"sbar"I7/text() ').extract() ) .sCtript) 
item['releasetime'] = ''.join(c.xpath('.//p[G8class- 
"releasetime"]//text() ').extract()).strip() 
rirem['score'| = ''-qo0«mníc-xpath(' v, /p[eclass- 


"Score"d|y//texti(]').extract t) g -SEEIDI) 
yield item 
上 述 代 码 的 类 属性 start urls 为 猫眼 电影 TOP 100 排行 榜 的 URL 地 址 , 请 求 参数 offset 设 为 字 
伯 串 格式 化 , 这样 可 动态 设置 参数 offset 的 参数 值 。spider 程序 定义 了 start requests) fll parse(O 方 法 ， 
说 明 如 下 : 


€ start requests OF E EM 10 次 循环 ， 将 当前 循环 的 次 数 乘 以 10 即 可 得 出 请 求 参 数 offset 的 
数值 ， 从 而 构建 不 同 页 面 的 URL 地 址 。 

e parse() 方 法 是 将 网 页 的 响应 内 容 进行 数据 清洗 , 清洗 后 的 数据 传递 给 MaoyanPipelineO 实 现 
数据 入 库 。 


在 CMD 窗口 或 PyCharm 的 Terminal 窗口 下 输入 指令 scrapy crawl Movie， 局 动 并 运行 项 目 
maoyan。 项 目 运 行 完 成 后 ， 打 开 spiderdb 数据 库 查 看 maoyan db 数据 表 的 数据 信息 ， 如 图 23-25 
所 示 。 

同时 打开 Redis 可 视 化 工具 Redis Desktop Manager. fr Redis 数据 库 的 数据 信息 , 发 现 Redis 
数据 库 分 别 存 储 了 Scrapy Redis 的 判 重 数据 dupefilter AERA items。 判 重 数据 dupefilter 是 将 
网 页 的 URL 地 址 按 一 定 的 规则 写 入 Redis 数据 库 ; ERZE items 是 将 网 页 的 啊 应 内 容 清洗 后 写 入 
Redis 数据 库 ， 如 图 23-26 所 示 。 
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FH maoyan db Gspiderdb (My... 


Ey 开始 事务 文本 CY Wu lcu ESSA 民 导出 
movieName performer releasetime score 
: 衬 蒂 去 ' 卡 瑞 尔 ,赤木 : 席 格 尔 , 拉 塞 尔 : 布 二 德 上 了 映 时 间 : 2010-19.0 
: FSER TARH ESTHER 上 了 映 时 间 : 2009-18.9 
SEEX EXE Mm 上 映 时 间 : 2000-18.9 
: SUR FARR, Ar HRT 上 了 映 时 间 : 1989-1 8.8 
和 
SELECT * FROM `spiderdb`. maoyan db' I 第 1 条 记录 (25100 条 ) 于 第 1 页 | 
图 23-25 ”电影 排行 榜 信息 


B voc = ES © M V it v MyDb::db0::Movie:dupefilter 
v doo (2) : |: Novie:dupefilter 
”ovie (2) 


value 


? Movie:dupefilter 92f2TeTb845f3a8f-- 
CN d55df£7f2a944b590-- 
Movie:ltems 545639d6cd6526£2-- 


图 23-26 Redis 数据 库 的 数据 信息 


由 于 Redis 数据 库 已 存储 相关 数据 ， 当 再 次 执行 项 目 maoyan 的 时 候 , 如 果 网 站 内 容 没 有 更 新 ， 
MH maoyan SHEFER. AX Redis 数据 库 已 有 相同 的 数据 ， 这 样 可 以 防止 分 布 式 的 爬虫 程 
序 重 复 爬 取 ， 保 证 了 数据 的 唯一 性 。 


23.6 PMAR FSH EAER 


从 Scrapy Redis 的 分 布 式 爬 虫 原理 得 知 ， 当 前 请 求 的 URL 地 址 和 响应 内 容 都 已 保存 在 Redis 
数据 库 的 时 候 ，Scrapy 不 再 对 当前 请 求 发 送 HTTP 请 求 ， 而 是 直接 执行 下 一 个 请 求 ， 这 样 可 以 防 
止 分 布 式 的 爬虫 程序 重复 爬 取 ， 保 证 了 数据 的 唯一 M 

TR 48 27 fi JT rh Jg 388 n] PART AE d — 3911 SENER., HUE mie fEO DRE 
AHER P. M BRA3S1IIG m BST sicul OAW AER IER, KERGE Fg 
HRR Rs DER Scrapy Redis t& nf DEZ ER GRE n, AMERA Scrapy 项 目 里 
目 主 开发 增 量 式 爬虫 ， 实 现 原 理 与 Scrapy Redis 的 大 同 小 异 。 

目 主 开 发 增 量 式 讨 虫 的 方式 有 两 种 : 基于 和 常 道 实现 增 量 式 和 基于 中 间 件 实现 增 量 式 。 两 者 在 
Scrapy 的 不 同文 件 里 实现 ， 说 明 如 下 : 


e 基于 管道 实现 增 量 式 疏 求 是 在 pipelines.py 文件 的 process item0 方 法 里 判断 数据 是 否 已 保 
存在 Redis 数据 库 ， 如 果 存 在 则 不 做 数据 入 库 处 理 ， 反 之 将 当前 数据 写 入 Redis 数据 库 和 
目标 数据 库 。 

e TFN EAR ÆA middlewares.py 文件 里 定义 中 间 件 , 判断 当前 请 求 的 URL 
地 址 是 否 已 在 Redis 数据 库 ， 如 果 存 在 则 跳 过 当前 请 求 并 直接 执行 下 一 个 请 求 ， 反 之 将 当 
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前 的 URL 地 址 写 入 Redis 数据 库 并 对 该 请 求 往 下 执行 。 


23.6.1 基于 管道 实现 增 量 式 


基于 管道 实现 增 量 式 是 将 Scrapy Redis 的 pipelines.py 单独 使 用 ， 它 最 大 的 优点 是 对 已 访问 的 
URL 地 址 重复 访问 并 获取 数据 ， 这 样 可 及 时 更 新 数据 的 动态 变化 ， 第 用 于 排行 榜 、 论 坛 贴吧 等 网 
WAJER; 但 这 也 是 一 个 最 大 的 缺点 ， 因 为 它 会 对 URL 地 址 重复 访问 ， 如 果 网 站 数据 固定 不 变 就 
会 造成 网 络 资源 痕 费 ， 同 时 也 增 大 了 反 疏 虫 机 制 检 测 的 风险 。 

实现 管道 增 量 式 爬 虫 可 以 使 用 Scrapy Redis 的 pipelines.py 文件 的 RedisPipeline 类 ， 不 过 它 会 
涉及 到 Scrapy Redis 其 他 文件 的 使 用 。 为 了 人 简化 功能 的 复杂 度 , 可 以 根据 原理 在 项 目的 pipelines.py 
文件 编写 相应 功能 即 可 ， 本 节 以 豆 为 电影 评论 为 例 ， 讲 述 如 何在 Scrapy MHKIN EEI EJER 
JFA. 

Jn HKA 23.3 WW douban 项 目 ， 将 项 目的 中 间 件 Selenium 去 挤 ， 这 是 为 了 人 简化 项 目 
功能 ， 方 便 读 者 理解 ， 由 于 功能 发 生 改 变 ， 和 名 个 文件 代码 也 进行 相应 的 调整 。 痛 先 打开 配置 文件 
settings.py; MPR PEF Selenium 的 相关 配置 ， 代 码 如 下 : 

BOT NAME = 'douban' 

SPIDER MODULES = ['douban.spiders'] 


NEWSPIDER MODULE - 'douban.spiders' 
BOBOTSTXT OBEY — False 


DEFAULT REQUEST HEADERS = ẹ{ 
'Accept': 'text/html,application/xhtml-«xml, 
application/xml;q=0.9,*/*;q=0.8", 

"AcCcepl LanNguaage Ten, 

# 加 上 User-agent， 否 则 提示 403 错误 信息 

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 
AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/69.0.3497.100 Safari/537.36' 


l 


DOWNLOADER MIDDLEWARES = { 
'douban.middlewares.DoubanDownloaderMiddleware': 543, 


} 


ITEM PIPELINES — | 
'douban.pipelines.DoubanPipeline': 300, 


} 


import os 

BASE DIR = os.path.dirname(os.path.realpath( file )) 

CONF = os.path.jo:n(BASE DIR, "'conf.ini') 

MYSQL CONNECTION = 'mysql-pymysql://root:1234(Q 
localhost/spiderdb?charset-utf8mb4' 


打开 项 目的 items.py 文件 ， 将 项 目 存 储 的 字段 定义 为 movieImnfo， 该 字段 将 以 列表 格式 表示 ， 
列表 的 每 个 元 系 以 字典 表示 ， 了 于 典 里 包含 了 电影 ID 和 评论 内 容 ， 代 码 如 下 : 


import scrapy 
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class DoubanliLem(í(scrapy.Item): 
movieInfo = scrapy.Field() 


在 项 目的 pipelines.py 文件 中 修改 数据 存储 过 程 ， 将 数据 存储 DongmanPipeline 重新 定义 ， 分 
别 对 初始 化 方法 ”init 0 和 process itemO 进 行 重 写 ， 代 码 如 下 : 


from sqlalchemy import * 

from sqlalchemy.orm import sessionmaker 

from sqlalchemy.ext.declarative import declarative base 
from scrapy.conf import settings 

import redis 


# 定义 映射 类 
Base = declarative basel) 
class scrapy db (Base): 
tablename = "douban db' 
id = Column(Integer(), primary key-True) 
movield = Column (String(100)) 
comment = Column(String (2000)) 


class DoubanPipeline (object): 
def init (sett: 

# 连接 Redis 数据 库 
self.redis db = redis.Redis (host='"127.0.0.1"'",port=6379,db=1) 
selt.redrs data dict = 'koeys' 
# 初始 化 ， 连 接 数 据 库 
conntion = settings['MYSQL CONNECTION'] 
engine = create engine(conntion,echo-False,pool size-2000) 
DBSession = sessionmaker (bind-engine) 
self.SQLsession = DBSession() 
# 创建 数据 表 


Base.metadata.create all (engine) 


def process item(self, item, spider): 
# 判断 数据 库 Redis 是 否 存 在 URL 
for 1, v in enumerate(item["'movieInfo']): 
if self.redis db.hexists(self.redis data dict, v): 
EGTE, ih AEE CE M GS 
print (' 数 据 库 已 经 存在 该 条 数据 ') 
else: 
# 不 存在 ， 写 入 数据 库 Redis 
self.redis db.hset(self.redis data dict, v, 0} 
# 入 库 处 理 
self.SQLsesslon-execute (scrapy db. table .insert(), 
('comment': v['comment'].replace("Mn", ""), 
"mowierd'* vl'movietd']]) 
self.SQLsession.commit() 
return item 


数据 存储 DoubanPipeline 通过 重 写 初始 化 方法 int () TE DoubanPipeline0O 实 例 化 的 时 候 ， 
使 用 redis 模块 连接 Redis 数据 库 以 及 读 取 配置 文件 settings.py 的 数据 库 连 接 信息 , 由 SQLAlchemy 
实现 MySQL 数据 库 连 接 。 

方法 process item()*&3li Jj Scrapy 引擎 传递 的 参数 item， 每 次 过 历代 表 某 部 电影 的 某 条 评论 ， 
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将 每 条 评论 在 Redis 数据 库 中 进行 查找 ， 奉 存在 ， 则 提示 数据 库 已 经 存在 该 杀 数 据 ， 否 则 对 该 数据 
分 别 写 入 Redis 和 MySQL 数据 库 。 

最 后 打开 项 目 spiders 文件 夹 的 movie.py 文件 ， 将 spider 程序 进行 调整 ， 由 于 已 去 抒 中 间 件 
Selenium 和 改变 了 数据 存储 方式 ， 所 以 分 别 对 spider 程序 的 start requests) fl parse() 进 行 修改 ， 代 
R35 F: 

from douban.items import DoubanItem 

from scrapy.selector import Selector 


from scrapy.spider import Spider, Request 
import configparser 


class MovieSpider (Spider): 


# 属性 name 必须 设置 ， 而 且 是 唯一 命名 ， 用 于 运行 息 虫 


name = "Movie" 

# 设置 允许 访问 域名 

allowed domains = ["https://movie.douban.com"] 

# xA URL 

start urls -~ 'https://movie.douban.com/subject/$£s/comments? 


start-$s&limit-20&sort-new score&staLus-P' 
# H5 start requests 
der start requests (selfy: 
# 读 取 配置 文件 ， 获 取 电 影 ID 并 生成 列表 
conf = configparser.ConfigParser () 
urisnrst ~ rj 
conf.read(self.settings.get('CONF')) 
temp = conf['config!'] 
if 'movieId' in temp.keys(): 
urlsList = conf['config'"] ['movierId'].split(",") 
for a in drisList: 
# EER IERA R A EE 
for page in range (2): 
url — sell- -Start uris St SEC {page = 207) 
yield Request(url-url,meta-['movieId': str(u)], 
callback selt parse) 


def parse(selfF, response): 
# 将 啊 应 内 容 生 成 Selector， 用 于 数据 清洗 
sel elector(treseense 
+ 定义 DoubanItem 对 象 
item = DoubanItem() 
comments-sel.xpath('//div[8id-"comments"]//div[Gclass-"comment"]") 
commentsList - [] 
for c ain comments: 
movield = response.meta['movieId'] 


comment-''.-qormm[c.xpalh('-//p//span//text()').-extractE()) -stript) 
commentsList.append (dict (movielId-movieId,comment-comment ) ) 
item['moviernto'] = commentsList 
yield item 


f£ CMD 窗口 或 PyCharm 的 Terminal 窗口 下 输入 指令 scrapy crawl Movie， 司 动 并 运行 项 目 
douban。 项 目 运 行 完 成 后 ， 打 开 MySQL 数据 库 的 douban db 数据 表 和 Redis 数据 库 ， 分 别 查 看 数 
据 信息 ， 如 图 23-27 所 示 。 
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c 开始 事务 B+- 本 wu liar RA RSH 

id mowvield comment 
126425060  ;ÉHDESBE! ， 可 以 说 星 差 不 冤 死 了 
2 26425063 这 部 电影 本 身 就 像 星 高 仿 的 A 贷 ， 像 那些 同类 型 的 真 货 经 典 电影 一 样 真 ， 但 总 归 不 是 人 党 嫌疑 入》 那 兴 的 电 服 
3 26425063 港 产 片 认真 起 来 ， 还 是 能 用 内 地 警匪片 几 条 街 。 对 制作 假名 过程 的 细致 刻 画 引 人 入 胜 ， 层 层 递 进 移 人 物 命运 和 市 
4 26425063 你 看 ,对 女人 说 真 话 的 下 场 ， SABERE AEL 
5 26425063 果然 世界 上 不 o 能 存在 周 汕 发 庆 样 的 铁血 老娘 男 的 ! 
6 26425063 首 瞻 放 了 配音 ， 很 冒险 ,相当 于 把 景 本 真 的 妻 演 ， 全 都 压 在 张静初 身上 ( 后 半 段 才 演 出 味道 ) | MAATRE 


cog 
piderdb douban db LIMIT 0, 1000 


F NyDb::dbl::keys X 


HASH: keys | size: 80 TIL: 


value 


' 26636712" , A 0 
l'novieId': '26425063', 'comment' : ”做 为 一 名 发 哥 死 忠 ， 终于 盼 … 0 


i — -a rrm [————— a a 


图 23-27 MySQL 和 Redis 的 数据 信息 


当 重 复 运 行 项 目 douban 的 时 候 ， 程 序 依然 能 同 网 站 发 送 HITP 请 求 ， 并 且 将 扑 取 的 数据 进行 
清洗 处 理 ， 直 到 在 数据 存储 的 时 候 才 会 提示 “数据 库 已 经 存在 该 条 数据 ”。 


23.6.2 ”基于 中 国 件 实现 增 量 式 


基于 中 间 件 实现 增 量 式 爬 虫 是 在 发 送 HTTP 请 求 之 前 ， 首 先 对 该 请 求 的 URL 地 址 进行 判断 ， 
WRZ URL 地 址 在 此 之 前 已 发 送 过 HITP 请 求 ， 则 本 次 请 求 不 再 往 下 执行 ， 这 样 可 以 避免 同一 个 
URL 地 址 重复 访问 。 因 此 ， 目 定义 中 间 件 主要 对 当前 请 求 的 URL 地址 进行 判断 ， 根 据 不 同 的 判断 
结果 执行 不 同 的 处 理 方式 。 

本 节 同 样 以 豆瓣 电影 评论 为 例 , 讲述 如 何在 Scrapy 项 目 实 现 中 间 件 增 量 式 息 虫 开发 。 将 第 23.3 
HE] douban 项 目的 中 间 件 Selenium 去 挥 ， 并 对 各 个 文件 代码 也 进行 相应 的 调整 。 痛 先 打 开 配 置 文 
fF settings.py， 删 除 中 间 件 Selenium 的 相关 配置 以 及 注册 激活 中 间 件 RedisMiddleware， 代 人 码 如 下 : 


BOT NAME = 'douban' 

SPIDER MODULES = ['douban.spiders'] 
NEWSPIDER MODULE - 'douban.spiders' 
ROBOTSTXT OBEY - False 


DEFAULT REQUEST HEADERS = 1 
'Accept': 'text/html,application/xhtml-«xml, 
dapplircatrony/xml:dq-0.9,*/*-q0—0-8*', 
"Accept Language: tent, 
t 加 上 User-agent， 人 否则 提示 403 错误 信息 
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 
AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/69.0.3497.100 Safari1/537.306' 
} 
DOWNLOADER MIDDLEWARES = { 
'douban.middlewares.DoubanDownloaderMiddleware': 543, 
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'douban.middlewares.RedisMiddleware': 300, 
} 
ITEM PIPELINES = | 
'douban.pipelines.DoubanPipeline': 300, 
} 


import os 

BASE DIR — os.path.dirname([os.path.realpath( file )) 

CONF = o5.pabth.jotrn(BASE DIR, 'conf.ini') 

MYSQL CONNECTION = 'mysqi-«pymysql://root:12346Q 
localhost/spiderdb?charset-utf8mb4' 


项 目的 items.py 和 pipelines.py 文件 无 需 修 改 ， 沿 用 项 目 原 有 的 实现 方式 即 可 。 然 后 将 spider 
程序 的 功能 代码 进行 调整 ， 去 除 参 数 meta 的 usedSelenium 属性 ， 修 改 代 码 如 下 : 


from douban.items import DoubanItem 

from scrapy.selector import Selector 

from scrapy.spider import Spider, Request 
import configparser 


class MovieSpider (Spider): 


name = "Movie" 

# 设置 允许 访问 域名 

allowed domains = ["https://movie.douban.com"] 

# 设置 URL 

start urls = 'https://movie.douban.com/subject/£s/comments? 


start-%s&limit-20&sort-new scorc&status-P' 

# E start requests 
def start requests (self): 

# 读 取 配置 文件 ， 获 取 电 影 ID 并 生成 列表 

conf = configparser.ConfigParser () 

urlshist = T] 

conf.read(self.settings.get('CONF')) 

temp = conf['config'] 

if 'movieId' in temp.keys(): 

urlsList=conf["config"] ['movieIrd"].spliıt(',") 


lor u in Hrlsbist: 
# BEER IERI R B YE E 
for page in range (2): 
Url = seli- start urls (Str SEEFIDpagoc * 207) 
yield Request(url-url, meta-[('movieId': str(u)], 
caliback=self.parse) 


der parsefseli, response): 
# 将 啊 应 内 容 生 成 selector， 用 于 数据 清洗 
5145 二 
# 定义 DoubanItem 对 象 
item = DoubanItem() 
comments-sel.xpath('//div[8id-"comments"]//div[Gclass-"comment"]") 
for c in comments: 
item['movieId'] = response.meta['movieId'] 
item["comment']| = ''.join(c.xpath(' -//p//5span// 
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Eext()')exbrdcti)i-SbErapt) 
yield item 
配置 文件 settings.py 己 注 册 激 活 中 间 件 RedisMiddleware， 因 此 在 middlewares.py 文件 需要 定 
义 中 间 件 RedisMiddleware， 访 中间 件 是 实现 增 量 式 爬虫 功能 ， 代 人 码 如 下 : 
4 自 定 义 Redis 中 间 件 
from scrapy.http import HtmlResponse 
import redis 
class RedisMiddleware (object): 
def init (self): 


self.redis db=redis .Redis (host="127.0.0.1'",port=6379,db=1) 
self.redis data dict = 'keys' 


der process request(selr, reguest, spider): 
+ 判断 数据 库 Redis 是 否 存在 URL 
if self.redis db.hexists(selt.redis data dict, request.url): 
# 大 存在 ， 抛 出 500 异常 
return HtimlResponse(url=-request.- url, status-o007 request- request) 
else: 
# 不 存在 ， 写 入 数据 库 Redis， 并 将 数据 写 入 MysoL 数据 库 
self.redis db.hset (self.redis data dict, request.url, 0) 
return None 


目 定 义 中 间 件 RedisMiddleware 重新 定义 初始 化 方法 _init 0 和 process requestQZ; iE. PMA 
的 说 明 如 下 : 


e 初始 化 方法 _init (0) 是 为 process_request() 方 法 提供 Redis 数据 库 连 接 对 象 ， 并 将 对 象 以 类 
属性 redis db 表示 ; 类 属性 redis data dict 是 定义 Redis 数据 库 的 HASH, 可 理解 为 数据 表 
的 命名 。 

@ process request() 方 法 是 将 类 属性 redis data dict 和 参数 request 的 URL 地 址 传 入 类 属性 
redis db， 这 样 可 以 判断 参数 request 的 URL 地 址 是 否 记 录 在 Redis 数据 库 

e Ie URL 地 址 已 记录 Redis 数据 库 , 则 说 明 当 前 请 求 在 此 之 前 已 有 访问 记录 ,中 间 件 就 会 
抛 出 HTTP 500 异常 ， 这 代表 终止 当前 请 求 的 处 理 。 

。 如 果 URL 地 址 尚未 记录 Redis 数据 库 ， 则 说 明 当前 请 求 尚未 生成 访问 记录 ， 中 间 件 会 将 
URL 地 址 写 入 Redis 数据 库 ， 并 且 对 当前 请 求 执行 相应 的 数据 爬 取 。 

在 CMD 窗口 或 PyCharm 的 Terminal 窗口 下 输入 指令 scrapy crawl Movie， 局 动 并 运行 项 目 


douban。 项 目 运行 完成 后 ， 打 开 MySQL 数据 库 的 douban db 数据 表 和 Redis 数据 库 ， 分 别 查看 数 
据 信 息 ， 如 图 23-28 所 示 。 
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对 入” 国 douban db @spiderdb (My... 
开始 事务 EA- Y 筛选 上 = 排序 车 导入 ES 


d movield comment 
26036712 第 一 个 彩蛋 比 正 片 好 看 ? 
226636712 。 女 主 妈 30 年 不 晕 不 染 眼影 睫毛 言 了 解 一 下 ~ 
326636712 “1. 把 路 易 斯 、 蚁 人 、 钢 铁 侠 、 星 萎 、 死 侍 、 物 蛛 侠 废 除 超 能 力 后 关 在 一 个 房 问 里 ， 清 问 谁 能 活 到 最 后 ? 2 上 
426636712 娱乐 性 很 强 ， 可 惜 反 派 太 弱 ， 好 在 一 看 就 是 给 妇联 4 过 流 用 的 ， 蚁 人 那 哥 们 和 和 死 侍 还 有 小 蛟 蛛 可 以 比比 看 育 


一 co eli > 
LECT * FROM `spiderdb``douban_db` LIMIT 0, 1000 第 1 条 记录 (Ht 80 条 ) 


| y MyRedis::dbl::keys X 


HASH: Rename | Size: 4 


https://movie. douban. com/ ~ 
https://movie. douban. com, += 


https://movie. douban. com/ ~ 


https://movie. douban. com/ *-: I 
图 23-28 MySQL 和 Redis 的 数据 信息 


当 重 复 运行 项 目 douban 的 时 候 , 项 目 中 所 有 的 URL 地 址 已 被 记录 在 Redis 数据 库 中 ， 因 此 所 
有 请 求 都 被 终止 执行 ， 中 间 件 就 会 抛 出 HTTP 500 错误 码 ， 如 图 23-29 所 示 。 


scrapy. spidermiddlewares.httperror] INFO: Ignoring response “500 https://movie. douban. com/subject/26425063/c 
atus-P»: HTTP status code is not handled or not allowed 
scrapy. spidermiddlewares.httperror] INFO: Ignoring response 4500 https://movie. douban. com/ sub ject/26425063/q 
status-P^»: HTTP status code is not handled or not allowed 
scrapy.spidermiddlewares.httperror] INFO: Ignoring response «4500 https://movie. douban. com/sub ject/26636712/4q 
atus-P»: HTTP status code is not handled or not allowed 
crapy. spidermiddlewares.httperror] INFO: Ignoring response «500 https://movie. douban. com/ sub ject/26636712/4 


otatus-P»: HTTP status code is not handled or not allowed 


ccrapy.core.engine] INFO: Closing spider (finished) 


图 23-29 ”终止 请 求 


23.7 Æ A £d 


Scrapy 的 目 定 义 开 发 主要 体现 在 Scrapy 的 中 间 件 上 ， 也 就 是 Scrapy 项 目 里 的 middlewares.py 
文件 , 该 文件 以 类 的 形式 定义 中 间 件 , 在 配置 文件 settings.py 注册 激活 中 间 件 , 当 项 目 运行 的 时 候 ， 
Scrapy 会 上 自动 调用 目 定 义 中 间 件 。 

创建 Scrapy 项 目的 时 候 ,middlewares.py 文件 默认 定义 了 两 个 中 辐 件 ,分 别 是 SpiderMiddleware 
和 DownloaderMiddleware， 前 者 是 爬虫 中 国 件 ， 介 于 Scrapy 引擎 和 讨 虫 之 间 的 框架 ， 主 要 工作 是 
处 理 爬 虫 的 啊 应 输入 和 请 求 输出 ; 后 者 是 下 载 硕 中 国 件 ， 位 于 Scrapy 5| ERI P ZI 88 2 IRI JE AS, 
处 理 引 擎 与 下 载 右 之 间 的 请 求 及 啊 应 。 两 者 的 工作 流程 如 下 : 
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@ Scrapy ARRA Rž HTTP 请 求 是 由 中 间 件 DownloaderMiddleware 的 process request() 
函数 实现 ， 

e 请 求 发 送 成 功 后 , 调用 DownloaderMiddleware 的 process response() 函 数 生成 相应 的 响应 内 
容 ， 并 将 响应 内 容 发 送 给 Scrapy 5#. 

e Scrapy 引 营 将 响应 内 容 传 递 给 SpiderMiddleware 的 process spider inputO 遂 数 处 理 ， 根 据 
开发 者 编写 的 spider 程序 来 对 响应 内 容 进行 清洗 处 理 ， 

© SpiderMiddleware 将 处 理 结果 返回 给 Scrapy 引擎 ， 这 个 过 程 是 由 process spider _output() $ 
数 实现 。 而 Scrapy 引擎 再 将 结果 传递 给 Item Pipelne， 从 而 实现 数据 存储 。 


中 间 件 的 目 定 义 是 实现 类 的 定义 ， 该 类 可 选择 是 否 继 承 某 个 父 类 ， 比 如 定义 
MyDownloaderMiddleware 中 间 件 ,该 中间 件 可 以 继承 objects 类 (Python 的 新 式 类 ) ; 还 可 以 继承 
Scrapy 的 内 置 中 间 件 ， 使 得 目 定 义 中 间 件 共有 和 内置 中 间 件 的 功能 。 

Scrapy 不 仅 能 目 定 义 中 间 件 ， 还 可 以 将 中 间 件 结合 其 他 模块 实现 不 同 的 有 朴 取 方式 。 在 Scrapy 
框架 上 使 用 Selenium 模块 实现 爬虫 开 友 是 曾 见 的 手段 之 一 ， 因 为 Selenium P ARH A Vj FR] a 
锅 ， 从 中 扑 取 目标 数据 ， 实 现 过 程 较为 简单 ， 而 且 能 绕 开 各 种 反扑 虫 策 略 。 

Scrapy 框架 也 可 以 与 Splash 模块 结合 使 用 ， 从 Scrapy 框架 结构 可 知 ， 使 用 Splash 比 Selenium 
更 有 优势 ， 因 为 Splash 是 一 个 异步 框架 ， 它 与 Scrapy 框架 能 完美 结合 。 

分 布 式 仆 虫 好 比 新 房子 一 样 ， 如 果 1 个 人 兰 一 栋 房 子 ， 他 完成 任务 的 时 间 相 对 较 长 ， 寿 20 个 
人 同时 炙 一 栋 房 子 ， 这 梓 的 工作 效率 束 会 大 大 提升 ， 完 成 任务 的 工作 时 间 也 相应 减少 。 分 布 式 爬 果 
是 将 一 个 有 朴 虫 任务 分 给 多 个 相同 的 爬虫 程序 同时 执行 ， 而 且 每 个 爬虫 程序 所 疏 取 的 内 容 各 不 相同 。 

增 量 式 爬 虫 是 在 已 保存 网 站 部 分 数据 的 情况 下 ， 当 再 次 运 行 朴 虫 的 时 候 ， 疏 虫 对 已 有 的 数据 
不 再 重复 肘 取 ， 只 礁 取 数据 库 疝 未 保存 的 数据 。 分 布 式 爬虫 Scrapy Redis t n] DEZ ENEE, 
此 外 还 可 以 在 Scrapy 项 目 里 目 主 开发 增 量 式 爬 虫 ， 实 现 原 理 与 Scrapy Redis 的 大 同 小 异 。 

和 目 主 开 发 增 量 式 讨 虫 的 方式 有 两 种 : 基于 党 道 实 现 增 量 式 和 基于 中 间 件 实现 增 量 式 。 两 者 在 
Scrapy 的 不 同文 件 里 实现 ， 说 明 如 下 : 

e 基于 管道 实现 增 量 式 疏 虫 是 在 pipelines.py 文件 的 process item() 方 法 里 判断 数据 是 否 已 保 
存在 Redis 数据 库 ， 如 果 存 在 则 不 做 数据 入 库 处 理 ， 反 之 将 当前 数据 写 入 Redis 数据 库 和 
目标 数据 库 。 

e TFN EAR EAA middlewares.py 文件 里 定义 中 间 件 , 判断 当前 请 求 的 URL 
地 址 是 否 已 在 Redis 数据 库 ， 如 果 存 在 则 跳 过 当前 请 求 并 直接 执行 下 一 个 请 求 ， 反 之 将 当 
前 的 URL 地 址 写 入 Redis 数据 库 并 对 该 请 求 往 下 执行 。 
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24.1 项 目 分 析 


本 章 通 过 实战 的 形式 来 深入 讲述 Scrapy 的 使 用 方法 ， 我 们 以 链 家 的 二 手 房 信息 为 爬 取 对 象 ， 
分 别 爬 取 房 屋 的 信息 和 所 在 小 区 的 基本 信息 

在 浏览 规 上 访问 链 家 二 手 房 的 网 址 Ci //gz.lianjia.com/ershoufang/pgl/) ， 发 现房 屋 信 息 是 
以 列表 的 形式 表示 ， 并 且 设 置 为 分 页 功能 ; 每 一 页 有 30 条 房屋 信息 ， 每 个 城市 只 提供 100 页 的 房 
屋 信 息 ， 如 图 24-1 所 示 。 


e https://gz.lianjia.com/ershoufang/pg1/ 


A 荷 景 花园 一 区 | 4 室 2 厅 | 118 平 米 | 东南 | 精装 | 无 电 
O 中 楼 层 ( 共 7 层 )1995 年 建 塔楼 - 沙 湾 


合 2150 人 关注 / 共 2 次 带 看 / 3 个 月 以 前 发 布 


ERG 


图 24-1 房屋 列表 


从 图 24-1 中 得 知 ， 每 当 单 击 不 同 页 数 的 时 候 ， 房屋 列表 的 URL 地 址 会 随 之 变化 。 比 如 单 击 第 
二 页 的 时 候 ，URL 末端 变 为 pg2、 第 三 页 的 URL 末端 变 成 bg3…… 以 此 类 推 ，URL 末端 数字 代表 
当前 页 数 ， 因 此 对 该 数字 进行 动态 设置 即 可 获取 不 同 页 数 的 房屋 列表 信息 。 
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在 每 一 页 的 房屋 列表 里 含有 房屋 详情 页 的 URL 地 址 ， 通 过 这 些 URL hg] ERUS E 
本 信息 。 以 某 房屋 详情 页 为 例 ， 项 目 需要 疏 取 房屋 的 ID、 售 价 和 基本 信息 ， 如 图 24-2 所 示 。 


B https://gz.lianjia.com/ershoufangf 1084000294 


基本 信息 


4:22] 162E REE ”中 楼层 (47E) 
118m SEUEN O 平 层 
106.03m 建筑 类 型 塔楼 


2018-08-04 

2012-12-26 | zi: 

EIE ^P RIS 共有 

TUER 37 万 元 建设 银行 55 ETE HEERA 


图 24-2 房屋 信息 


房屋 详细 页 还 可 以 找到 售 价 和 所 属 小 区 的 URL 地 址 ， 通 过 该 URL 地 址 可 以 进入 小 区 详情 页 ， 
从 而 爬 取 小 区 的 相关 信息 ， 如 图 24-3 所 示 。 


195. snes 
万 ”车 付 及 代 款 情况 请 咨询 径 纪 人 移 


4 室 2 厅 东南 118 平 米 


中 楼 层 / 共 7 层 平 层 /精装 19955E 8E 580: 


图 24-3 小 区 的 URL 地址 


从 小 区 的 URL 地 址 进入 小 区 详情 页 可 以 发 现 ，URL 末端 的 一 串 数 字 代 表 小 区 ID， 用 于 标注 
小 区 的 唯一 性 ; 在 小 区 详情 页 需要 疏 取 小 区 的 名 称 、 位 置 、 建 筑 年 份 、 物 业 公 司 等 相关 信息 ， 并 且 
还 要 将 小 区 与 房屋 之 间 的 数据 相互 关联 ， 如 图 24-4 所 示 。 


https://gz.lianjia.com/xiaoqt/? ! 


ESBE/ IS TE 

0.67u/^F2k/ H 

广州 市 痊 岛 区 美 图 物业 管 埋 有 限 公 司 
弟 负 区 阔 汪 房地产 并 友 公 司 

GORR 

1357P 

A7 JEEE 


图 24-4 小 区 信息 


综合 上 述 分 析 ， 本 项 目 主要 对 三 个 网 页 进行 数据 候 取 :房屋 列表 页 、 房 屋 详情 页 和 小 区 详情 
页 ， 疏 取 的 方向 说 明 如 下 : 


e 根据 房屋 列表 页 的 URL 地 址 构造 规律 ， 动 态 设置 URL 末端 的 页 数 来 获取 全 部 房屋 详情 页 
的 URL 地 址 。 这 个 获取 过 程 涉及 两 个 循环 : 页 数 循环 和 每 页 的 房屋 列表 循环 ; 前 者 是 循 
环 100 页 的 房屋 列表 ， 后 者 获取 每 页 房屋 列表 的 房屋 详情 页 URL 地 址 。 

@ 房屋 详情 页 的 URL 地 址 末端 的 一 串 数 字 代 表 房 屋 ID， 用 来 标记 房屋 的 唯一 性 。 在 房屋 详 
细 页 里 除了 疏 取 房屋 的 基本 信息 之 外 ， 还 能 疏 取 小 区 详情 页 的 URL 地 址 ， 从 而 访问 小 区 
详情 页 爬 取 小 区 信息 。 

e 小 区 详情 页 的 URL 地 址 末端 的 一 串 数 字 代 表 小 区 ID， 这 是 标记 小 区 的 唯一 性 。 在 小 区 详 
情 页 爬 取 小 区 基本 信息 之 外 ， 还 要 将 小 区 和 房屋 的 数据 相互 关联 ， 因 为 会 出 现 一 个 小 区 有 
多 套房 屋 出 售 的 情况 。 


三 个 网 页 所 疏 取 的 数据 信息 都 可 以 在 开发 者 工具 Network 标签 下 的 Doc 分 类 标签 进行 分 析 ， 
详细 的 分 析 过 程 本 书 不 再 讲述 , 我 们 将 目标 数据 在 HTML 源码 的 大 概 位 置 以 表格 的 形式 加 以 说 明 ， 
根据 这 个 位 置 即 可 找到 每 条 数据 的 具体 位 置 ， 如 表 24-1 所 示 。 


表 24-1 目标 数据 信息 
数据 | 所 属 碳 面 | HM 源码 位 置 
全 部 房屋 信息 房屋 列表 页 属性 class 为 sellListContent 的 ul 标签 
每 套房 屋 详 情 页 的 URL 地 址 房屋 列表 页 属性 class 为 title 的 div 标签 
房屋 详情 页 属性 class X price 的 div 标签 
房屋 的 基本 属性 房屋 详情 页 属性 class 为 base 的 div 标签 


房屋 的 交易 属性 房屋 详情 页 属性 class 为 transaction 的 div 标签 
小 区 主 情 页 的 URL 地 址 房屋 详情 页 属性 class 为 info 的 a 标签 

小 区 详情 页 属性 class 为 detailTitle 的 hl 标签 

属性 class 为 detailDesc 的 div 标签 


小 区 基本 信息 小 区 详情 页 属性 class 为 xiaoquInfoContent 的 span 标签 
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最 后 从 三 个 网 页 的 域名 得 知 ， 域 名 “gz.lianjia.com” 的 gz 代表 广州 ， 如 果 切 换 到 其 他 城市 ， 
域名 会 随 之 变化 ， 比 如 深圳 的 域名 为 “sz.lianjia.com” 或 上 海 的 域名 为 “sh_lianjiacom”。 对 于 这 
种 变化 ， 我 们 也 可 以 动态 设置 域名 来 实现 各 个 城市 的 爬 取 。 


242 Ql x m H 


Bi EUIS ed xt. SER Y HE. PE RRITEJ Scrapy 爬 时 项目。 将 项 目 命名 为 lianjia， 
打开 CMD 命令 提示 符 窗 口 ， 将 当前 的 路 径 切 换 到 其 他 磁盘 ， 然 后 输入 创建 指令 : 


scrapy startproject lianjia 


项 目 创 建 完 成 后 , 在 项 目 中 的 spiders 文件 夹 里 创建 houseSpider py 文件 , 该 文件 用 来 实现 Spider 
功能 ， 用 于 编写 爬虫 规则 ; 在 配置 文件 settings.py 的 同一 目录 下 创建 confini 配置 文件 ，confini X 
件 用 于 动态 设置 各 个 城市 的 域名 信息 。 

最 后 在 PyCharm 中 打开 项 目 所 在 的 文件 来 ， 目 录 结 构 如 图 24-5 所 示 。 

lianjia DAlianjia 
lanja 
spiders 
2 Init .py 
a houseSpider.py 
a Init .py 


H conf.ini 
a items.py 
a middlewares.py 
a pipelines.py 
a settings.py 
W scrapy.cfg 


图 24-5 目录 结构 


24.3 MHMS 


从 网 站 分 析 结 果 来 看 ， 整 个 项 目的 开 友 难度 相对 较为 简单 ， 三 个 页 面 的 URL 地 址 构造 规律 、 
响应 内 容 和 数据 位 置 都 一 目 了 然 。 因 此 ， 项 目 lianjia 只 需 使 用 Scrapy 的 基本 配置 即 可 ， 配 置 代码 
如 下 : 

BOT NAME - 'lianjia' 

SPIDER MODULES - ['lianjia.spiders'] 

NEWSPIDER MODULE = 'lianjia.spiders' 

t UD False 
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ROBOTSTXT OBEY = False 
# 设置 请 求 头 
DEFAULT REQUEST HEADERS = [ 
'Accept': 'text/html,application/xhtml-«xml, 
application/xml;q=0.9,*/*;q=0.8", 
‘Accept Language: "zh CN, zhag 0.9, 
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 
AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/69.0.3497.100 Safar1/537.36', 


} 
# 数据 库 连 接 信息 
MYSQL CONNECTION = 'mysql-«pymysql://root:1234Q 
localhost/spiderdb?charset-utf8mb4' 
import os 
BASE DIR = os.path.dirname(os.path.realpath( file )) 
CONF = os.path.]jo:n(BASE DIR, "'conft.ini') 
# 注册 激活 管道 类 
ITEM PLIPELINES = | 
"lianjia.pipelines.Lian]jiaPipeline': 300, 


} 


从 上 述 代码 看 出 ， 项 目 分 别 对 Item Pipelines、 数 据 库 信 息 、 请 求 头 和 配置 文件 confini 进行 配 
置 ， 各 个 配置 说 明 如 下 。 


e Item Pipelines: 在 创建 项 目 时 ， 默 认 配 置 了 类 LianjiaPipelne， 用 于 实现 数据 的 存储 功能 ， 
具有 的 存储 功能 代码 还 需要 开发 者 自行 编写 。 

e 数据 库 信 息 : 该 配置 属于 自 定 义 配 置信 息 ， 变 量 MYSQL CONNECTION 以 字符 串 格式 表 
示 ， 变 量 值 是 SOLAlchemy 连接 数据 库 语 句 。 数 据 库 系统 为 本 地 数据 库 系 统 ， 数 据 库 为 
splderdb。 

e 请 求 头 : 配置 默认 的 请 求 头 内 容 ， 如 果 项 目 中 发 送 HTTP 请 求 并 没有 指定 请 求 头 ， 就 默认 
使 用 该 配置 作为 请 求 头 。 

e 配置 文件 confini: 用 于 动态 设置 各 个 城市 的 域名 信息 ， 由 os 模块 读 取 settings.py 同 目录 
下 的 配置 文件 confini 的 文件 路 径 ， 并 将 文件 路 径 设 为 配置 属性 CONF. 


除 此 之 外 ， 还 可 以 配置 并 友 数 和 下 载 延 时 等 相关 信息 ， 读 者 可 根据 以 下 代码 目 行 配置 : 


i Configure maximum concurrent requests performed by Scrapy (default: 16) 

# 设置 并 发 数 ，Scrapy 默认 同一 时 间 可 并 发 16 个 请 求 

iCONCURRENT REQUESTS = 32 

i Configure a delay for requests for the same website (default: 0) 

# See 
http://scrapy.readthedocs.org/en/latest/topics/settings.html£download-delay 

See also autothrottle settings and docs 

ERE TREN, KEA F REK [8] [8] Bf 

#DOWNLOAD DELAY = 3 

Ff The download delay setting will honor only one of: 

# 设置 同一 域名 和 同一 IP 的 并 发 数 

#CONCURRENT REQUESTS PER DOMAIN = 16 

CONCURRENT REQUESTS PER IP = 16 
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项 目 所 疏 取 的 数据 分 为 房屋 信息 和 小 区 信息 ， 两 者 之 间 存 在 一 对 多 的 数据 关系 ， 一 个 小 区 可 
以 同时 出 售 多 套房 屋 ， 而 房屋 只 能 属于 共 个 小 区 。 根 据 这 个 数据 关系 ， 我 们 在 items.py 定义 了 两 个 


字段 ， 分 别 代表 房屋 信息 和 小 区 信息 ， 代 人 码 如 下 : 


import scrapy 

class LianjiaIltem(scrapy.Item): 
villageInfo - scrapy.Field() 
houseInfo - scrapy.Field() 


上 述 代 码 分 别 定义 villageInfo 和 houseInfo 字段 ， 每 个 字段 所 存储 的 数据 以 字典 格式 表示 ， 字 典 的 


每 个 键 值 对 代表 某 套 房屋 或 某 个 小 区 的 具体 信息 ， 我 们 把 房屋 和 小 区 的 具体 信息 以 表 24-2 表示 。 
表 24-2 房屋 和 小 区 信息 


di 
B 
4} 
vE 


字段 命名 


| 


房屋 信息 


house hid 


EHI 


acreage 


| 


房屋 尸 型 
high 


structure 


户型 结构 
E V IRURE innerAcreage 
E LOSS 
房屋 朝 癌 
建筑 结构 


style 


orientation 


framework 


装修 情况 
T)? EE In] 
Fic d FR B 
产权 年 限 
售 价 

每 平方 售 作 
挂牌 时 间 
交易 权 属 tradingRights 
上 次 交易 


bi Fe Hl 


renovation 
proportion 
elevator 
years 
price 
unitPrice 


listingTime 


lastIransaction 


use 


life 


产权 所 属 
地 址 链接 
小 区 编号 region rid 


belong 


Umum — E — 
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小 区 编号 region rid 
小 K 名 称 re 


建筑 类 型 
物业 费用 
物业 公司 
开发 商 
楼 栋 总 数 
附近 门店 


从 表 上 的 数据 可 以 看 到 ， 房 屋 信息 和 小 区 信息 包含 了 多 个 数据 ， 如 果 这 些 数据 在 items.py 里 
逐一 定义 ， 就 会 增加 项 目 文件 items.py、pipelines.py 和 houseSpider.py 的 代码 量 ， 因 此 将 这 些 数 据 
以 字典 格式 表示 可 以 精简 项 目的 代码 量 。 


24.5 ”定义 管道 类 


从 表 24-2 的 存储 字段 得 知 , 房屋 信息 共有 23 个 字段 , 小 区 信息 共有 11 个 字段 。 TE pipelines.py 
文件 里 分 别 对 这 些 字段 进行 定义 ， 由 SQLAlchemy 实现 定义 过 程 和 构建 数据 库 映 身 关系， 定义 映 
WT 2$ houseInfo 和 villageInfo 分 别 对 应 房屋 信息 和 小 区 信息 ， 代 但 如 下 : 


from sqlalchemy import * 

from sqlalchemy.orm import sessionmaker 

from sqlalchemy.ext.declarative import declarative base 
from datetime import datetime 

# 导入 setting 配置 信息 


from scrapy.conf import settings 


# 定义 映射 类 

Base — declarative base() 

# 小 区 信息 表 

class villageInfo (Base): 

tablename — 'villageInfo' 

id = Column(Integer(), primary key-True) 
region rid = Column(String(100), comment-'/[X2 5 ') 
name = Column(String(100), comment-'/h[X4 f") 
area = Column(String(100), comment=" 小 区 位 置 ") 
buildYear = Column(Text(), comment=" 建 成 日 期 ") 
buildType = Column(String(100), comment-'ZES 287") 
buildCost = Column(String(100), comment-' TV 34 Hj") 
costCompany = Column(String(100), comment= 物业 会 司 ' ) 
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developers = Column(String(100), comment-' 开发 商 ， ) 
buildCount Column(String(100), comment-' 楼 栋 总 数 ') 
houseCount = Column(String(100), comment-' 房屋 总 数 ") 
nearby = Column(String(100), comment-'[ffri]J') 

log date = Column(DateTime(), default-datetime.now, 


onupdate-datetime.now, comment-'ids2k HBHBH') 


# 房屋 信息 表 
class houserntotBase) : 
tablename — 'houseInfo' 


id = Column(Integer(), primary key True) 

house hid = Column(String(100), comment= "房屋 编号 " ) 

acreage = Column(String(100), comment=' #4 HT ') 

type = Column (String (100), comment- ' 5; Fg F1 7H ') 

high = Column(String(100), comment=' MERR ') 

structure = Column(String(100), comment= :户型 结构 ') 

innerAcreage = Column(String(100), :ommnent= 全 内 面积 7) 

style = Column(String(100), comment=" 建筑 类 型 ") 

orientation = Column(String(100), comment- ' 5; Fg Hja] ' ) 

framework - Column(String(100), comment-' 建筑 结构 ， ) 

renovation = Column(String(100), comment- "装修 情况 ' ) 

proportion = Column(String(100), comment- "f$ E") 

elevator = Column(String(100), comment=" 配 备 电 梯 ') 

years = Column (string(100)，comment=" 产 权 年 限 7) 

price = Column(String(100), comment-' iff') 

unitPrice = Column(String(100), comment-' 8PF7j; Sfr) 

listingTime = Column(String(100), comment-'d4dEfBH][R]") 

tradingRights = Column(String(100), comment-' 3% Aj UB ' ) 

lastTransaction = Column(String(100), comment-'.E?XA"') 

use = Column(String(100), comment-']J;fgHh3X') 

life = Column(String(100), comment- F RER") 

belong = Column(String(100), comment=' 产权 有 所属" 

url = Column (string(100)，comment=" 地 址 链接 ') 

region rid = Column(String(100), comment-'/[X45g  ') 

log date - Column(DateTime(), default-datetime.now, 
onupdate-datetime.now, comment-'ids* H HH') 


映射 类 houseInfo 和 villageInfo 除了 定义 存储 字段 之 外 ， 还 定义 了 字段 1d 和 log_date， 分 别 代 
表 数 据 表 的 主键 d 和 数据 的 记录 日 期 FE id 会 在 数据 插入 的 时 候 目 动 生成 一 个 递增 的 整数 ; CE 
段 log date 会 在 数据 择 入 或 更 新 的 时 候 记 录 当 前 操作 的 时 间 。 

除了 定义 映射 类 houseInfo 和 villageInfo 之 外 , 项 目 文件 pipelines.py 最 主要 的 是 实现 数据 存储 
功能 ， 这 个 功能 由 LianjiaPipeline 类 实现 ， 实 现代 码 如 下 : 


class LianjiaPipeline (0object): 
def indt (selfi: 

# 初始 化 ， 连 接 数 据 库 
conntion = settings['MYSQL CONNECTION'] 
engine = create engine(conntion,echo-False,pool size-2000) 
DBSession - sessionmaker (bind-engine) 
self.SQLsession = DBSession() 
# 创建 数据 表 


Base.metadata.create all(engine) 
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# 写 入 房屋 信息 
def house db(self, info): 
house hid — snfo['house hid'] 
# 判断 是 否 已 存在 记录 
temp = self.SQLsession.query (houseInfo). 
filter by(house hid-house hid).first() 
if temp: 
temp.acreage = info.get('acreage', ''"') 
btemp.type = s3nfo.get('type', '*') 
temp.high = info.get('high', '') 


temp.structure = tinfo.get('sEructure', "'*') 
temp.innerAcreage = info.get('innerAcreage', '') 
bemp.style = info.gert('style', '"') 
temp.orientation = info.get('orientation', '"') 
temp.framework = info.get('framework', ''"') 
temp.renovation = info.get('renovation', '') 
Ltemp.proportrion = info.get('proportron', *'*') 
temp.elevator = info.get('elevator', '') 
temp.years = info.get('years', '') 

temp.price = info.get([('nprice', *'*) 

temp.unitPrice = info.get['unrzbLPrice', '') 
temp.1istingTime = info.get('"listingTime', "") 
temp.tradingRights = info.get('tradingRights', '") 
temp.lastTransaction = info.get('lastTransaction', '"') 
temp.use = info.qet('use', *'*)J 


temp.life = info.get('life', '') 
temp.belong = info.get('belong', '!) 


temp-uri — 1nfo.get('urt', '*) 
temp.region rid - info.get('region rid', '') 
else: 


inset data 三 houserlnfo{ 
house hid=info.get ('house hid", ""), 
acreage-info.get('acreage', ''), 
type-info.get('Lype', '*'), 
hiqh-infto.get('hrgh"', '*y, 


sLructure-info.get('sEructure', "''3, 
innerAcreage-info.get('innerAcreage'!, ''), 
Sstyle-anio.get('style', 11), 
orientation-info.get('orientation', ''), 
framework-info.get('framework', ''), 
renovation-info.get('renovation', ''), 
proportion=info.get ('proportion’', ''"), 
elevator-info.get('elevator', ''), 
years-info.get('years', ''), 
price-info.get('price', ''), 
unitPrice=info.get ('unitPrice’', "'), 
iStiNnqTIME NFO get(" TiStingTme, "'"), 
tradingRights-info.get('tradingRights', ''), 
TfastTfrarnsaction-info.get('lastTransactron', '"'), 
use=info.get ('use', ""), 


]lite-rnfo.get('Life', ''3, 
belong-info.get('belong', ''"), 
uri-into.get['urt'. "''Y. 

region ri inio gel CU region rid i; 
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) 
self SUbhsessron.addiirnset data) 
self.SQLsession.commit() 


# 写 入 小 区 信息 
def village db(self, info): 
region rid = info['region rid'] 
# 判断 是 否 已 存在 记录 
temp = self.SQLsession.query(villageInfo). 
filter by(region rid-region rid).first() 


if temp: 
temp.name = info.get('name') 
temp.area - info.get('area', '') 


temp.buildYear = info.get('buildYear', '"') 
temp.buildType = info.get('buildType', '') 
temp.buildCost - info.get('buildCost', TT) 


temp.costCompany = info.get('costCompany', '') 
temp.developers = info.get('developers', '') 
temp.buildCount = info.get('buildCount', '') 
temp.houseCount = info.get('houseCount', '') 
temp.nearby = info.get('nearby', "') 
alsa. 
insel data — villáägerntoi 
region rid=info.qet ("region rid', ''), 
name=info.get ('name'), 
area=info.get ('area', *'*), 


buildYear=info.get ('buildYear', ''), 
buildType-info.get('buildType', ''), 
burftdCosE-irnto-get('buridcost', *'*'). 


cosbECompany-rnfo.get('costCompany', *'"), 
developers-info.get('developers', ''), 
büusrTdCounb-into.get('burldCount', *'*'J, 
houseCount-info.get('houseCount', ''), 
nearby-info.get('nearby', '') 


) 
a3clf.SsOLsessron.addiinset data) 
self.SQLsession.commit() 


# 入 库 处 理 

def process item(self, item, spider): 
self.house db(item["'houseInfo']) 
self.village db(item['villageInfo']) 
return item 

数据 存储 类 LianjiaPipeline 重 写 初始 化 方法 imt 0 和 定义 类 方法 house db(. village dbO 和 

process item0， 各 个 方法 的 功能 说 明 如 下 : 

e 初始 化 方法 mt 0 是 读 取 配 置 文件 settings.py 的 配置 属性 MYSQL CONNECTION， 用 
于 SQLAlchemy 连接 MySQL 数据 库 ， 将 数据 库 连 接 对 保 设 为 类 属性 SQLsession， 便 于 类 
方法 调用 ， 从 而 实现 数据 库 操作 。 

e 类 方法 house db0 的 参数 info 代表 房屋 信息 并 以 字典 格式 传 入 。house_db0 〇 首先 获取 房屋 ID, 
用 来 标记 房屋 的 唯一 性 ， 以 房屋 ID 作为 查询 条 件 ， 对 数据 表 houseInfo 进行 查询 ， 如 果 数 据 
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表 已 存在 该 房屋 信息 ， 则 对 数据 表 的 数据 进行 更 新 操作 ， 反 之 则 对 数据 库 插入 当前 数据 。 
e 类 方法 village db()5 house db0O 实 现 的 功能 是 相同 的 , 其 中 village dbO 的 参数 info 代表 小 
区 信息 并 以 字典 格式 传 入 ; 然后 以 小 区 ID 作为 查询 条 件 ， 查 询 的 数据 表 为 villageInfo. 
© X ik process item() 的 参数 item 是 由 项 目 文件 items.py 的 Lianjialtem 类 实例 化 所 生成 的 
对 象 ， 它 包含 了 房屋 信息 和 小 区 信息 ， 这 些 信息 是 由 spider 程序 写 入 的 ; process item)? 
用 了 village db0 和 house db0 方 法 ， 并 对 调用 的 方法 分 别传 入 房屋 信息 和 小 区 信息 ， 从 而 
实现 数据 入 库 处 理 。 


24.6 SERAL 


AMEA, EB PI UL 7353 EIRE AEREA, BAARI 
设 有 分 页 功能 ， 需 要 两 次 HTTP 请 求 才 能 读 取 所 有 房屋 信息 : 另外 两 个 页 面 的 数据 只 需 一 次 HTTP 
请 求 即 可 获取 ， 因 此 本 项 目的 Spider 共有 4 个 类 方法 ， 所 实现 的 功能 说 明 如 下 : 
遍历 访问 房屋 列表 页 的 总 页 数 。 
获取 房屋 列表 页 的 每 一 页 的 房屋 信息 。 
展 取 每 套房 屋 的 详细 信息 。 
爬 取 房屋 所 在 小 区 的 详细 信息 。 


根据 上 述 功能 说 明 ， 在 项 目 文 件 houseSpider.py 编写 相应 的 功能 代码 ， 如 下 所 示 : 


from lianjia.items import Lianjialtem 
from scrapy.selector import Selector 
from scrapy.spider import Spider, Request 
import configparser, json 


class HouseSpider (Spider): 
# 属性 name DE. mHE — ma, H]T3efrmen 
name = "House" 
# 设置 允许 访问 域名 
allowed domains -~ ["lianjia.com"] 
# WB URL 
start urls-'https://$s.lianjia.com/ershoufang/pg$s/' 
# H5 start requests 
der Start regqüuests (serf): 
# 读 取 配置 文件 ， 获 取 电 影 ID 并 生成 列表 
conf — configparser.ConfigParser () 
domainblist ~ f] 
conf.read(self.settings.get('CONF')) 
temp = conf" Ly ,| 
if 'domain' in temp.keys(): 
domainList = cont['bJ'|['domairn']|-spitrE(t', ") 
# DIET M TRE 
for d in domainList: 
self.domain = d 
headers = self.settings.get('DEFAULT REQUEST HEADERS') 
headers['Host'] = self.domain + '.lianjia.com' 
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headers Upgrade Insecurc- Requests | 3 
# 遍历 房屋 列表 页 的 总 页 数 
for p in range (100): 


url = self.-start urls $ (self.domain, str (p+1)) 
yield Request(url-url, headers-headers, 
meta-['headers': headers], 


callback=self .pagelnfo) 


der pagelnfol(self, response): 
sel — 5elector (response) 
headers — Tesponse metal headers ] 
houseURL = sel.xpath('//ul[8class-"sellListContent"]/li') 
for u in houseURL: 
url = ''.joxm(u.xpath('.//div[8class-"Ertle"]y/y 
a//lnref') .extract ()) .strip() 
yield Request (url=url,headers=headers,callback=self.housePage) 


ger ÞpousePRage (seli, Te pom Ge) 

houseInfo = {} 

villageInfo = f} 

SEIL SElectCoOrC{reSponsE]) 

# 房屋 信息 

honsornto]|'urt'] — response. uri 

honsernfo|'houss hid'"']=response.url.split(/") [1] .split(".") T3] 

houseInfo['price'] = ''.join(sel.xpath('//span[8class- 
"total"]//text () '}) .extract (}}+ "'.Jjoin({ 
sel.xpath('//span[G8class-"unit"]//span// 
bextET) "YY extractt}) 

houseInfo['unitPrice'] = ''.join(sel.xpath('//span[G8class- 

"unitPriceValue"]//text()').extract ()) 
baseInfo = sel.xpath('//div[8class-"base"]//li') 


# 基本 信息 
for b in baseInfo: 
1 = "Join(b.xpath('.//text () ') .extract ()) 


if "房屋 户型 ' in str(i): 
houseintol'type*1I—1-replacet'Jeig 390. 69) 
elif ' 所 在 楼 层 ' in str (i): 
houseInfo['high']-i.replace('BiTERSEE', '") 
elif ' 建 筑 面 积 ' in str(i): 
houseInfo['acreage']-i.replace('£E&ANIBITA', "'") 
elif “户型 结构 ”in str(1): 
houseInfol[' stroacture”]=1i Teplace 户型 人 结构” 
elif ' 套 内 面积 ' in str(i): 
a innerAcreage' es r*) 
elir HAN in str(i): 
houseInfo['style']-i.replace (CERIS, r1) 
elit "Hem" in strii)- 
houseInfo['orientation']-i.replace('BjbgWHI]"','"') 
elit "RAS in stri) 
houseInfo['framework']-i.replace('£EAXAEJ', '') 
elif ! 装修 情况 ' in str (i): 
houseInfo['renovation']-i.replace( XEMÉEfBUL', '') 


elif ' 梯 户 比 例 ' in str(i): 
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houüsernto['proportion']-i.replace('P&J [5p]*, v") 
elif "配备 电梯 ' in str (i): 
houseInfo['elevator']-i.replace('BüUgHBbB', 1") 
elif “产权 年 限 ， in strti): 
housernto|'years']-i-replace('P9 Bp v) 
# 交易 信息 


transaction = sel.xpath('//div[G8class-"transaction"]//11i') 
for t in transaction: 
3. "oc Join{t.xpath{".//span//text{}"}-extract{})} 


if ' 挂 牌 时 间 ' in str(i): 
houseInfo['listingTime']-i.replace('fthEH[[B]',"'").strip() 
elif ' 交 易 权 属 ' in str(i): 
houseInfo['tradingRights']-i.replace('A E BUJg','').strip() 
clit "PENSA" in sirli): 
houseinto['rlastTransaction']-i-replace(* E29 $'.'').sEriDI) 
elif ' 房 屋 用 途 ' in str (i): 
houseInfo['use']-i.replace ('JSEHBHIS','').strip() 
elif ' 房 屋 年 限 ' in str(i): 
人 于 年 了 
elif 'P*ARBpS' in str(i): 
houseInfo['belong']-i.replace('P"EAXBpER','").strip() 
# 小 区 信息 
villageInfo['region rid'] = ''.join(sel.xpath('//a[G8class- 
"inio "I//Bhret*') ext racETY). 
split (xiaoqu/'} [1] -replace{"/'","") 


houseInfo['region rid'] = villageInfo['"region rid'] 

villageInfo['area'] ~ ''.join(sel.xpath('//div[8class- 
"urcgwmdmoe"|9yarlrbtexrEri)'ycexbra3ctty) 

VillageURL -~ 'https://$s.lianjia.com/xiaoqu/$s/' 


$(self.domain, villageInfo['region rid']) 
# 构建 请 求 头 
headers = self.settings.get('DEFAULT REQUEST HEADERS!) 


headers['Host'] = self.domain + '.lianjia.com' 
headers['X-Requested-With'] - 'XMLHttpRequest' 
headers['Referer'] = houseInfo['url']| 


yield Request(url-villageURL, headers-headers, 
meta-[('houseInfo': houseInfo, 
'villagernfo': villagernfo], 
callback-self.villagePage,dont filter-True) 


def villagePage(self, response): 

houseinfo ~ responsc-mctgar Houscrpnbo-] 

villageInfo = response.meta['villageInfo'] 

sel — SelccóoorPIPOCSDORHSC) 

villageInfo['name'] = ''.join(sel.xpath('//hl1[8class- 
"debaririElo"|//texbLD) *)-extractt)) 

villageInfo['area'] -~ ''.join(sel.xpath('//div[8class- 
"derarbtBesc"aIy/;/rtexti)*y-.extractt)) 

info = sel.xpath('//div[G8class-"xiaoquInfo"]// 

span[8Gclass-"xiaoquInfoContent"]'"') 


wxillagernto|'burildYcar']| = ''-j4o:n(info[0lI-xpath('./f£/text()').- 
extract ()) 
wvidlagetnfo['BurldType'|] — ''-jos:n(info[T]-xpath('.//text()'). 


extract ()) 


第 24 草 ”实战 : 肛 取 链 家 楼 盘 信 息 | 399 


villageInfo['buildCost'] = .Join(info[2] .xpath('.//text ()"'). 
extract(í)) 
villageInfo['costCompany'] = **'-join(tirnto[3|;xpith( ^ .Atext() 7 ) . 
extract(í)) 
wxillagernto['developers'] = " .Join(info[4] .xpath("'.//text ()"). 
extract ()) 
wxillagernfo|'burildcount'] = .Join(info[5] .xpath('.//text (}"). 
exbracLí)) 
villagernto['houseCcount'| = *'-join(rinto[6]-xpabthn(* -//texE() *) - 
extract(í)) 
wxillagernto['nearby']-*'"'.-joxn(info[/]-xpath('.//Ltext() ') .extract ()) 
# 入 库 处 理 


item = LianjiaItem() 


item['houseInfo'] = houseInfo 
item['villageInfo'] = villageInfo 
yield item 


上 述 代码 定义 了 4 个 类 方法 ， 分 别 是 start requests(). pageInfo(). housePage() sl villagePage(). 
每 个 方法 所 实现 的 功能 说 明 如 下 : 


start requests( 〇 是 重 写 父 类 Spider 的 方法 ， 首 先 读 取 配置 文件 confini 的 城市 域名 信息 ， 域 
名 信息 是 构建 请 求 头 的 Host 属性 和 三 个 页 面 的 URL 地 址 ,请 求 关 的 Host 属性 是 必须 设置 
的 属性 之 一 ， 它 代表 网 站 的 站 点 信息 ， 如 果 URL 地 址 的 域名 是 上 海 ， 而 Host 属性 值 为 深 
圳 ， 在 访问 该 URL 的 时 候 会 出 现 无 法 访问 的 情况 ， 这 是 较为 常见 的 反 爬 豆 机 制 。 
pageInfo0O 是 处 理 start requests() & i€ HTTP 请 求 的 响应 内 容 ， 从 响应 内 容 获取 房屋 列表 页 
的 房屋 详情 页 的 URL 地 址 ， 最 后 对 这 些 URL 地 址 发 送 HTTP 请 来， 请 求 头 是 由 
start requestsO 的 参数 meta 传递 所 得 。 

housePage() 4 7t, 4t? pageImfo0 发 送 HTTP 请 求 的 响应 内 容 ， 从 响应 内 容 提取 房屋 详细 信 
息 以 及 小 区 详情 页 的 URL 地 址 ; 然后 重新 构建 请 求 头 ， 设 置 X-Requested-With 和 Referer 
属性 ， 用 于 访问 小 区 详情 页 的 URL 地 址 ; 最 后 设置 参数 meta， 将 房屋 信息 houseInfo 和 小 
区 信息 villageInfo 传递 给 回调 方法 villagePage0)。 

VillagePageO 是 处 理 housePage0 发 送 HTTP 请 求 的 响应 内 容 ， 慌 取 小 区 详细 信息 并 写 入 字 
Xt villageInfo; 然后 将 items.py 的 LianjiaItem 类 实例 化 ， 生 成 item X] $5; 最 后 将 房屋 信息 
houseInfo 和 小 区 信息 villageInfo 写 入 item 对 象 ， 传 递 给 pipelines.py 的 LianjiaPipeline A, 
实现 数据 入 库 处 理 。 


这 4 个 类 方法 所 实现 的 功能 得 知 ， 每 个 方法 之 同和 存在 一 定 的 关联 及 数据 交互 ， 比 如 
start requests) XZH] HTTP 请 求 是 由 回调 方法 pageInfoO 处 理 啊 应 内 容 ， 参 数 meta 的 参数 值 也 是 
传 给 回调 方法 使 用 。 

从 spider 程序 读 取 配置 文件 confini 的 方式 可 以 知道 ,每 个 城市 的 域名 是 以 英文 逗号 进行 拼接 ， 
然后 赋值 给 配置 属性 domainList， 如 图 24-6 所 示 。 

在 CMD 窗口 或 PyCharm 的 Terminal 窗口 下 输入 指令 scrapy crawl House， 局 动 并 运行 项 目 
lianjia。 项 目 运 行 完成 后 , 打开 spiderdb 数据 库 分 别 全 看 数据 表 houseinfo 和 villageinfo 的 数据 信息 ， 
如 图 24-7 所 示 。 
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3| confini - 记事 本 
HPO SEE) ERO EAV) BH) 


[LIJ 
domain = sy, sh, zs 


图 24-6 ”配置 文件 


=E 
有 开始 事务 ” 国 文本 ” yma lr RS 民 导出 
id region rid name area buildYear buildType 
1 311335066599: 金地 名 京 二 期 ( 铁 西 铁 西 区 ) 小 北 一 中 路 27 2013 年 建成 — 板 楼 
2 311105338844! SR 国际 新 城 AFAN FEE 2009 年 建成 — 塔楼 / 塔 板结 合 


一 a = e aum ra m gum. E c Lem, 1 1 I bx 
LLL. LOC LJ I4 L = -TS | 
FTT x pim S X — — 


JUL SB Ee 窗口 帮助 

开始 事务 ”站 文本 -第 选 上 排序 ADM ED 导出 

id house hid acreage type high structure innerÁcreage 
1 102100303888 89.78m 2 室 2 厅 1 司 1 卫 低 楼 层 (H245) TE 暂 无 数据 
2 102100928000 158.53nř 3zElTiBi2EP FEE (H308) 一 三 ku 


图 24-7 数据 表 信 息 
24.7 Æ m ^45 


本 章 介 绍 了 使 用 Scrapy 编写 爬 取 链 家 二 手 房 信息 的 程序 ， 通 过 本 章 的 学 : 
下 技能 : 

1. iT TE RITE BS [9] 

o 根据 房屋 列表 页 的 URL 地 址 构造 规律 ,动态 设置 URL 末端 的 页 数 来 获取 全 部 房屋 详情 页 
的 URL 地 址 。 这 个 获取 过 程 涉及 两 个 循环 : 页 数 循 环 和 每 页 的 房屋 列表 循环 ; 前 者 是 循 
环 100 页 的 房屋 列表 ， 后 者 则 是 获取 每 页 房屋 列表 的 房屋 详情 页 URL 地 址 。 

@ 房屋 详情 页 的 URL 地 址 末端 的 一 串 数 字 代 表 房 屋 ID， 用 于 标记 房屋 的 唯一 性 。 在 房屋 详 
情 页 里 除了 疏 取 房屋 的 基本 信息 之 外 ， 还 能 卜 取 小 区 详情 页 的 URL 地 址 ， 从 而 访问 小 区 
详情 页 展 取 小 区 信息 。 

e 小 区 详情 页 的 URL 地 址 末端 的 一 串 数 字 代 表 小 区 ID， 用 于 标记 小 区 的 唯一 性 。 在 小 区 详 
情 页 爬 取 小 区 基本 信息 之 外 ， 还 要 将 小 区 和 房屋 的 数据 相互 关联 ， 因 为 会 出 现 一 个 小 区 有 
多 套房 屋 出 售 的 情况 。 

2. 设计 数据 存储 功能 

数据 存储 类 LianjiaPipeline 重 写 初 始 化 方法 imt 0 和 定义 类 方法 house db(). village dbO 和 

process item(0， 各 个 方法 的 功能 说 明 如 下 : 


M 
Ran 
nm 
lK 
Au 
ir 
€ 
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e 初始 化 方法 int 0 是 读 取 配 置 文件 settings.py 的 配置 属性 MYSQL CONNECTION, M 
于 SQLAlchemy 连接 MySQL 数据库， 将 数据 库 连 接 对 象 设 为 类 属性 SQLsession， 便 于 类 
方法 调用 ， 从 而 实现 数据 库 操作 。 
e 类 方法 house db0 的 参数 info 代表 房屋 信息 并 以 字典 格式 传 入 。house db0 首 先 获取 房屋 
ID， 用 于 标记 房屋 的 唯一 性 ， 以 房屋 ID 作为 查询 条 件 ， 对 数据 表 houseInfo 进行 查询 ， 如 
果 数 据 表 已 存在 该 房屋 信息 ， 则 对 数据 表 的 数据 进行 更 新 操作 ， 反 之 则 对 数据 库 插 入 当前 
数据 。 
e 类 方法 village db()5 house db0O 实 现 的 功能 相同 ,其 中 village db()85 žk info 代表 小 区 信 
息 并 以 字典 格式 传 入 ; 然后 以 小 区 ID 作为 查询 条 件 ， 查 询 的 数据 表 为 villageInfo. 
@ 类 方法 process item() 的 参数 item 是 由 项 目 文件 items.py 的 Lianjialtem 类 实例 化 所 生成 的 
对 象 ， 它 包含 了 房屋 信息 和 小 区 信息 ， 这 些 信息 是 由 spider 程序 写 入 的 ; process item() 调 
用 了 village db0 和 house db() 方 法 ， 并 对 调用 的 方法 分 别传 入 房屋 信息 和 小 区 信息 ， 从 而 
实现 数据 入 库 处 理 。 
3. TERAMI] Spider 
疏 取 的 网 页 分 为 房屋 列表 页 、 房 屋 详 情 页 和 小 区 详情 页 ， 其 中 房屋 列表 页 设 有 分 页 功能 ， 需 
要 两 次 HTTP 请 求 才 能 读 取 所 有 房屋 的 信息 ; 另外 两 个 页 面 的 数据 只 需 一 次 HTTP 请 求 即 可 获取 ， 
因此 本 项 目的 Spider 共有 4 个 类 方法 ， 所 实现 的 功能 说 明 如 下 : 
遍历 访问 房屋 列表 页 的 总 页 数 。 
获取 房屋 列表 页 的 每 一 页 的 房屋 信息 。 
慌 取 每 套房 屋 的 详细 信息 。 
人 爬 取 房屋 所 在 小 区 的 详细 信息 。 


KA: QQ EREE 


251 JA H x br 


在 第 18 章 ， 我 们 介绍 了 使 用 Requests MER QQ 音乐 ， 本 章 将 使 用 Scrapy MER QQ 音乐 ， 实 现 
与 第 18 章 相同 的 功能 ， 并 且 沿 用 第 18 章 的 仆 虫 规则 实现 项 目 开发 。 

在 歌手 列表 Chttps://y.qq.com/portal/singer list.html〉 中 按照 字母 类 别 对 歌手 分 类 ， 授 历 每 个 分 
类 下 的 每 位 歌手 页 面 ， 然 后 获取 每 位 歌手 页 面 的 全 部 歌曲 信息 。 根 据 该 设计 方案 列 出 过 历次 数 : 


(1) 通 历 每 位 歌手 的 歌曲 页 数 。 

(20 通 历 每 个 字母 分 类 的 每 页 歌手 信息 。 

(3) 亿 历 每 个 字母 分 类 的 歌手 总 页 数 。 

(4) W 26 个 字母 和 特殊 符号 分 类 的 歌手 列表 。 


在 功能 上 至 少 需要 实现 4 次 这 历 ， 但 在 实际 开发 中 往往 比 这 个 次 数 要 多 。 统 计 通 历次 数 ， 主 
要 是 能 让 开发 者 对 项 目 开 发 有 一 个 整体 设计 逻辑 。 项目 开 发 使 用 模块 化 设计 思想 , 整个 项 目 模块 的 
划分 如 下 : 


(1) 歌曲 下 载 。 

(2) 歌手 信息 和 歌曲 信息 。 

(3) 字母 分 类 下 的 歌手 列表 。 

(40 全 站 歌手 列表 。 

按照 上 述 方案 ，Scrapy MER QQ 音乐 的 开发 顺序 如 下 。 

(1) setting.py: 配置 朴 虫 信息 ， 如 请 求 头 、 数 据 库 信息 、 文 件 保存 路 径 。 
(2) items.py: 定义 存储 数据 对 象 ， 主 要 存储 歌曲 相关 信息 。 

(3) pipelines.py: 数据 存储 ， 实 现 歌 曲 信息 入 库 和 歌曲 下 载 。 

(4) spiders 文件 夹 (musicSpider.py) : 编写 爬虫 规则 。 
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由 于 项 目的 肘 取 对 象 和 有 疏 取 策略 与 第 18 章 相同 ， 所 以 本 章 不 再 对 QQ 首 乐 网 站 进行 分 析 ， 对 
候 取 网 站 架构 不 清晰 的 读者 可 阅读 第 18 章 的 有 关内 容 。 


25.2 项 目 创建 与 配置 


252.1 项 目 创建 


首先 创建 Scrapy 爬虫 项 目 ， 命 名 为 music, 打开 CMD 命令 提示 和 从 窗口 ， 将 当前 的 路 径 切 换 到 
其 他 磁盘 ， 然 后 输入 创建 指令 : 
scrapy startproject music 
项 目 创建 完成 后 ,在 项 目 中 的 spiders LFR H 81 musicSpider.py 文件 , 该 文件 用 于 实现 Spider 
功能 。 最 后 在 PyCharm 中 打开 项 目 所 在 的 文件 来 ， 目 录 结 构 如 图 25-1 所 示 。 
music D:\music 


music 


spiders 
& Init .py 
a musicSpider.py 


& Init .py 
a Items.py 
a middlewares.py 
a pipelines.py 
a settings.py 
H scrapy.cfg 


图 25-1 HRAT 


25.2.2 项 目 配置 


完成 项 目 创建 后 ， 接 下 来 束 进 入 项 目 开 发 。 按 照 制 定 的 开发 顺序 ， 站 先 完 成 项 目 配 置 的 开 友 ， 
打开 项 目的 配置 文件 settngpy， 由 于 文件 在 创建 的 时 候 已 有 较 多 的 注释 代码 ， 因 此 此 处 只 列 出 项 
目 所 需 的 代码 内 容 。 其 代码 如 下 : 


BOT NAME = 'music' 
SPIDER MODULES = ['music.spiders'] 
NEWSPIDER MODULE = 'music.spiders' 
# RA False 
ROBOTSTXT OBEY = False 
DEFAULT REQUEST HEADERS = 二 
'Accept': 'text/html,application/xhtml-«xml, 
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application/xml;q=0.9,*/*;q=0.8", 
T ACCEpL Language: “en 
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 
AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/69.0.3497.100 Safari/537.36' 


} 

# 设置 管道 功能 类 

ITEM PIPELINES = | 
'music.pipelines.MusicPipeline': 300, 
'music.pipelines.DownloadMusicPipeline': 300, 


} 

# 数据 库 连 接 信息 

MYSQL CONNECTION = 'mysql-«pymysql://root:1234Q 
localhost:3306/music db?charset-uttr8' 

# 设置 歌曲 的 保存 路 径 


FE 


从 上 述 代 三 看 出 ， 项 目 分 别 对 Item Pipelines、 数 据 库 信息 、 请 求 凑 和 文件 保存 路 径 进 行 配置 ， 
各 个 配置 说 明 如 下 。 


e Item Pipelines: 创建 项 目 时 ， 默 认 配 置 了 类 MusicPipeline。 在 此 项 目 中 ， 需 要 添加 一 个 下 
载 类 DownloadMusicPipeline， 该 类 继承 自 父 类 FilesPipeline， 主 要 实现 歌曲 下 载 功 能 。 

e 数据 库 信 息 : 该 配置 属于 自 定义 配置 信息 ， 变 量 MYSQL CONNECTION 以 字符 串 格式 表 
示 ， 变 量 值 是 SQLAlchemy 连接 数据 库 语 外。 数据 库 系 统 为 本 地 数据 库 系 统 ， 数 据 库 为 
music db. 

e 请 求 头 : 配置 默认 的 请 求 头 内 容 ， 如 果 项 目 中 发 送 HTTP 请 求 并 没有 指定 请 求 头 ， 就 默认 
使 用 该 配置 作为 请 求 头 . 

e 文件 保存 路 径 : 属于 自 定 义 配置 信息 ， 变 量 FILES STORE 为 字符 串 格式 ， 内 容 是 系统 有 
效 路 径 ， 主 要 用 于 歌曲 下 载 的 保存 路 径 。 


除 此 之 外 ， 还 可 以 配置 并 发 数 和 下 载 延 时 等 相关 信息 。 本 市 使 用 默认 配置 即 可 ， 读 者 可 根据 
以 下 代码 目 行 配置 : 


i Configure maximum concurrent requests performed by Scrapy (default: 16) 

# 设置 并 发 数 ，Scrapy 默认 同一 时 间 可 并 发 16 个 请 3 

#CONCURRENT REQUESTS = 32 

i Configure a delay for requests for the same website (default: 0) 

# See 
http://scrapy.readthedocs.org/en/latest/topics/settings.html£download-delay 

i See also autothrottle settings and docs 

EBREA TRIER, AEQRES FR IRIS EST [R] TR] Bf 

$£DOWNLOAD DELAY = 3 

i The download delay setting will honor only one of: 

# 设置 同一 域名 和 同一 IP 的 并 发 数 

#CONCURRENT REQUESTS PER DOMAIN = 16 

RCONCURRENT REQUESTS PER IP = 16 
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25.3 ”定义 存储 字段 和 管道 类 


25.3.1 定义 存储 字段 


项 目的 items.py 主要 用 于 定义 歌曲 信息 的 存储 对 象 ， 衔 接 爬 虫 规则 Spider 和 管道 Item 
Pipelines， 使 两 者 之 间 的 数据 交互 传递 。 根 据 第 18 章 数据 存储 部 分 的 介绍 ， 我 们 将 需要 存储 的 歌 
曲 信 息 以 表 25-1 所 示 。 


表 25-1 song 数据 表 
主键 
所 属 专辑 


歌曲 播放 时 长 
演唱 歌手 
歌曲 播放 链接 


^F Et song id 是 数据 表 的 主键 并 且 数 据 是 目 动 生 成 ,在 爬 取 的 数据 中 并 不 存在 ,所 以 在 items.py 
无 须 定 义 该 字段 。 而 歌曲 下 载 链接 song url， 除 了 写 入 MySQL 数据 库 之 外 ， 还 用 于 管道 类 
DownloadMusicPipeline 实现 歌曲 下 载 。 综 合 分 析 ， 项 目 文 件 items.py 的 代码 如 下 : 


import scrapy 
class MusicItem(scrapy.Item): 


song name = scrapy.Field() 
song ablum — scrapy.Fieldr) 
song interval - scrapy.Field() 
song songmid - scrapy.Field() 
song singer = scrapy.Field() 
song url = scrapy.Field!() 

pass 


2532 定义 管 直 类 

根据 items.py 的 存储 字段 来 实现 数据 存储 功能 ， 数 据 存 储 功 能 是 在 项 目 文件 pipelines.py 里 实 
现 ， 该 文件 主要 实现 两 个 功能 歌曲 信息 入 库 和 歌曲 下 载 。 

1. 歌曲 信息 入 库 


歌曲 信息 入 库 主 要 由 MusicPipeline 实现 ， 该 类 在 创建 项 目 时 己 目 动 生 成 ， 但 具体 的 存储 过 程 
还 需要 开发 者 目 行 编写 相关 代码 ， 数 据 存 储 的 代码 如 下 : 


import scrapy 
from scrapy.pipelines.files import FilesPipeline 
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from sqlalchemy import * 

from sqlalchemy.orm import sessionmaker 

from sqlalchemy.ext.declarative import declarative base 
from scrapy.conf import settings 


# SOLAlchemy 映射 数据 表 


Base = declarabrve baset) 
class songiBase): 
# 表 名 
tablename UU SOHO 
# 字段 ， 属 性 


song id = Column(Integer, primary key-True) 
song name = Column (String (200)) 

song ablum = Column (String (200)) 

song interval = Column (String (200)) 

song songmid - Column (String (200)) 

song singer = Column (String(200)) 

song url = Column (String (2000)) 


# 数据 入 库 
class MusicPipeline (object): 
def Inrb  fserttf): 

# 获取 配置 信息 setting .py 的 数据 库 连 接 
connection = settings['MYSQL CONNECTION'] 
# 连接 数据 库 
engine = create engine(connection, echo-False) 
# 创建 会 话 对 象 ， 用 于 数据 表 的 操作 
DBSession = sessionmaker (bind-engine) 
self.SQLsession = DBSession() 
# 创建 数据 表 


Base.metadata.create all (engine) 


def process item(self, item, spider): 
song songmid = item['song songmid'] 
temp = self.SQLsession.query(song).filter by( 
song songmid-song songmid).first() 


E 己 存 在 的 数据 做 更 新 处 理 


if temp: 
temp.song name = item['song name'], 
temp.song ablum = item['song ablum'], 
temp.song interval = item['song interval'], 
temp.song singer = item['song singer'], 
temp.sonq url — :tem['song url'| 


# 判断 歌曲 是 否 有 播放 版 权 
elif "key" in item["'song url']: 
data = song( 
song name-item['song name'], 
song ablum-item['song ablum'], 
song interval-item['song interval'], 
song songmid-item['song songmid'], 
song singer-item['song singer'], 
song url-item[*'sontg url'] 
) 
self.SQLsession.addt(tdatal) 
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self.SQLsession.commit() 
return item 
上 述 代 码 主 要 实现 三 个 功能 : XE XU CR] 2s. E MusicPipeline 类 的 初始 化 方法 int 0 
和 定义 类 方法 process item0， 有 具体 说 明 如 下 。 


e 数据 表 映 射 类 用 于 映射 数据 表 song， 类 属性 是 数据 表 的 字段 。 映 射 类 只 是 将 数据 表 以 对 象 
的 形式 表示 ， 在 实际 上 ， 数 据 表 和 映射 类 还 没 真正 实现 连接 。 

e 初始 化 方法 mt 0 用 于 读 取 配 置 文件 settings.py 的 配置 属性 MYSQL CONNECTION, 
用 于 SQLAlchemy 连接 MySQL 数据 库 ， 将 数据 库 连 接 对 象 设 为 类 属性 SQLsession， 便 于 
类 方法 调用 ， 从 而 实现 数据 库 操 作 。 

© 类 方法 process item) Æ% Å% items 的 数据 进行 入 库 处 理 ,， 从 数据 写 入 方式 来 看 ， 参 数 items 
代表 一 首 歌曲 的 信息 ， 也 就 是 每 疏 取 一 首 歌 曲 ， 就 会 执行 一 次 歌曲 入 库 和 下 载 。 但 是 并 不 
是 每 一 首 歌 都 会 写 入 数据 库 ， 因 为 有 些 歌曲 的 版 权 问 题 ， 导 致 无 法 播放 。 通 过 判断 歌曲 播 
放 的 URL 地 址 来 决定 歌曲 是 否 入 库 处 理 ， 因 为 歌曲 播放 的 URL 地 址 没有 请 求 参 数 就 能 说 
明 歌 曲 没 有 播放 版 权 ， 如 图 25-2 所 示 。 


Life.Love. Work Dreams 
Life.Love. Work Dreams 


Life.Love.Work.Dreams 


Life.Love.Work.Dreams 


图 25-2. ”歌曲 版 权 问题 
2. 歌曲 下 载 
完成 歌曲 信息 入 库 后 ， 还 要 实现 歌曲 下 载 功能 ， 歌 曲 下 载 是 由 DownloadMusicPipeline 实现 ， 
该 类 属于 目 定 义 类 ， 它 是 继承 父 类 FilesPipeline， 代 码 如 下 : 
t TRF 
class DownloadMusicPipeline(FilesPipeline): 
# H5 get media requests 
def get media requests(self, item, info): 
# 设置 文件 名 
file name = item['song songmid'] + '.m4a' 
yield scrapy.Request(item['song url'], meta-[('name': file name]) 


t 重 写 file path， 命 名 文件 名 

def file path(self, request, response-None, info-None): 
file name = settings['FILES STORE'] + (request.meta['name']) 
return file name 


歌曲 下 载 由 类 方法 get media requests()f/l file pathO 共 同 实 现 ， 两 者 都 是 从 父 类 FilesPipeline 
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继承 并 重 写 的 。 父 类 FilesPipeline 有 一 套 完善 的 下 载 机 制 ， 但 很 多 时 候 并 不 符合 各 种 各 样 的 下 载 需 
求 ， 所 以 大 多 数 情况 下 都 是 通过 类 的 继承 和 重 与 的 方式 实现 需求 化 下 载 。 
e get media requests): 参数 items 代表 一 首 歌 曲 的 信息 ， 从 items 对 和 象 获 取 歌 曲 的 songmid 
作为 文件 名 ， 然 后 将 文件 名 作为 scrapy.Request 的 meta 参数 传递 给 file path(). 
e file path(): 接收 get media requests()/2 i$ à] &-ZX. meta， 并 读 取 setting.py 里 面 的 文件 路 径 
配置 信息 ， 组 合成 一 个 完整 的 文件 路 径 ， 最 后 DownloadMusicPipeline. 将 下 载 的 文件 以 
file pathO 返 回 值 作为 文件 名 。 


25.4” 编 与 候 虫 规则 


候 虫 规则 是 整个 项 目 中 的 难点 ， 同 时 也 是 代码 量 最 多 的 一 个 功能 。 根 据 第 18 章 实 现 的 功能 发 
现 ， 整 个 程序 共 发 送 了 6 个 不 同 的 请 求 。 对 于 Scrapy 的 Spider 来 说 ， 一 个 HTTP 请 求 是 以 一 个 类 
方法 表示 ， 因 此 本 项 目的 Spider 共有 6 个 类 方法 ， 相 应 的 功能 有 : 


CD 歌手 字母 分 类 A 一 Z 和 特殊 符号 #。 
(2) 获取 每 个 字母 分 类 下 的 每 页 歌手 。 
(3) 获取 每 一 个 歌手 信息 。 

(4) 获取 歌手 的 每 一 页 歌曲 。 

(5) 获取 每 一 页 的 每 一 首 歌曲 信息 。 
(6) 每 一 首 歌曲 信息 。 


综合 上 述 分 析 ， 项 目 文 件 musicSpider.py 的 爬虫 代码 如 下 所 示 : 


import scrapy 

import json 

import math, requests 

from music.items import MusicItem 
from scrapy.spider import Spider 
from urllib.parse import quote 


class QOQMusic (Spider): 


name = 'Music' 

allowed domains = ['qq.com'] 
# start urls 是 歌手 列表 URL 
Stari urs — ] 


'https://u.y.qq.com/cgi-bin/musicu.fcg?loginUin-0& 
hostUin-O&format-jsonp&inCharset-utf8&outCharset-utf-8 
&notice-O0&platform-yqq&needNewCode-0&data-$7B£$22comm£2 
2$53A$7B$22Ct$22$3A24$2C$22cv$22$3A10000$7D$2C$22singer 
List$22$3A7B$22module£$22$3A£222Music.SingerListServer$ 
22$2C$22method$22$3A$22get singer list£$222C$22param£$22 
5$3A* /Bt$22area$22$3A-100$2C$2256e6x$22*$3A-100$2C$22genre$&2 
2$3A-100$2C$221ndex$22$3A', 

'$2C$22s1n$22$3A0$2C$22cur page$22$3A1$7D$7D$7D' 

] 

E 遍历 歌手 字母 分 类 A-z 和 特殊 符号 提 
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det Start poeddestsiselty 
lua = """function main (splash) 
splashzgo("https:/ry.gg.com/") 
splash:wait (3) 
splash:go("htbps://c.y.qq.com/v8/fcg-bin/fcq v8 singer 
track cp.fcg?g tk-5381&jsonpCallback-MusicJs 
onCallbacksinger track&loginUin-0&hostUin-0& 
format-jsonp&inCharset-utf8&outCharset-utf-8& 
notice-0&platform-yqq&needNewCode-0&singermid 
-001fNHEflSFEFN&Order-listen&begin-0&num-30&s 
ongstatus=1") 
splash:wait (3) 
return f 
splash:get cookies ()} 
enc Tu 
url="http://192.168.99.100:8050/execute?]ua source-'-«quote(lua) 
response — requests- get puri) 
print (response.json()) 
cookie dict — J} 
for 1 in response.jJjson()['1'"]: 
copkre dictiil' name']|] = 1|'value"] 
self.quid = cookie dict['pqv pvid'] 
SOIL COON COOKE dici 
for index in range(1, 28): 
üri = self.start nrEels[D] £i(sbEEI[:ndexi)rself.start uris[l] 
yield scrapy.Request(url, dont filter-True, 
callback-self.get genre singer, 
meEs-r'xndex'- ndexr) 


# 获取 每 个 字母 分 类 下 的 每 页 歌手 
der get genre MI (lr SDOHSE) S 
index = response.metal['index'] 
# MAŠ start requests 得 出 啊 应 内 容 ， 获 取 总 页 数 
t str(response.body.decode('utf-8')) 
pagenum = json.loads (response.body.decode('utf-8')) 


['singerList"'] ['data'"] ['total"] 
# 生成 列表 
page list = [x for x in range([l, pagenum:l) | 
for page in page list: 
url = 'https://u.y.qq.com/cqi-bin/musicu.fcg?loginUin= 


O&hostUin-0&format-jsonp&inCharset-utf8&outCharset 
-utf-8&notice-0&platform-yqq&needNewCode-0&data- 
$/B$22comm$22$3A$7/BS$22CU$22$3A24$2C$22cv*$22*53A100 
00$7D$2C$22singerList£2223A2$7B$22module£$22$3A£$22Mu 
sic.SingerListServer222$2C$22method$22£$3A£22get si 
nger list$22$2C$22param2222$3A$7B$22area$22£$3A-100$ 
2C$22sex$22$3A-100$2C2$22genre£222$3A-1002$2C$221ndex$ 
22%3A' + str(index) + "52C%22s1n%22%3A'" + str ((page 
—II*BÜPRE'S2CS2ZCUEF Dpdges22.s3A'tsLripago]t s!Ds7DSID" 

# dont filter 取消 重复 请 求 。 

yield scrapy.Request(url, dont filter-True, 

callback-self.get singer songs) 


# 获取 每 一 个 歌手 信息 


del geL moroong (ol roponsey: 
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# 获取 每 个 字母 分 类 下 的 每 页 歌手 的 全 部 信息 
singermid list = json.loads(response.body.decode('utf-8')) 
['srngerhist']|[*data*]I*'si:ngerivst *'] 
tor k in singermid list: 
url = 'https://c.y.qq.com/va/tcq bin/fcg vB singer 
track cp.fcg?loginUin-0&hostUin-0&singermid- 
$s&order-listen&begin-0&num-30&songstatus-1'$ 
(k['simnger mid" |) 
yield scrapy.Request(url, dont filter-True, 
callback-self.get singer info, 
meta-[('singermid':k['singer mid']]) 


# 获取 歌手 的 每 一 页 歌曲 
def get singer info(self, response): 
# 参数 传递 获取 singermid 
singermid = response.meta['singermid'] 


# 获取 歌手 的 名 字 ， 总 页 数 


singer info = json.loads (response.body.decode('utf-8')) 
song singer = singer info['data']['singer name'] 
songcount = singer info['data']['total'] 


pagecount - math.ceil(int(songcount) / 30) 
for p in range (pagecount): 
url = 'https://c.y.qq.com/v8/tcg-bin/fcg v8 singer 
track cp.fcg?loginUin-0&hostUin-0&singermid-$s 
&order-listen&begin-$s&num-30&songstatus-1'£ 
(singermid, p * 30) 
yleld scrapy.Request(url, dont filter-True, 
callback-self.get song info, 
meta-[('song singer': song singer]) 


# 获取 每 一 页 的 每 一 首 歌曲 信息 
det get song info (self, response): 
# 参数 传递 获取 歌手 名 字 
song singer = response.meta['song singer'] 
music data-json.loads (response.body.decode('utf-8')) 
['data'] [list™] 
for 1 in music data: 
songmid = i['musicData']['songmid' |] 
url = 'https://u.y.qq.com/cg1i-bin/müusicu. fcg?log:inU1n-0& 
hostUin-O&format-jsonp&inCharset-utf8&outCharset- 
utf-8&notice-0&platform-yqq&needNewCode-0&data- 
$7B$22req$22$3A$7B$22module$22£$3A$22CDN.SrfCdnDisp 
atchServer£222$2C$22method$22$3A$22GetCdnDispatch£2 
2$2C$22param$22$3A$7B$22guid$223A$22'-self.guid- 
'$22$2C$22calltype$22$3A0$2C$22userip$222$3A$22222$ 
1DS$7D$2C$22req 0$22$3A$7B$22module$22$3A$22vkey.Ge 
tVkeyServer222$2C$22method$22$3A$22CgiGetVkey£$2222 
C$22param$22$3A$7B£22guid$22£$3A$22'-«self.guid-4'$£222 
$2C$22songmid$222$3A£$5B222'--songmid-*'2$22$5D$2C$22s0o 
ngtype222$3A$5B0$5D$2C2$22uin222$3A£$220$22$2C$2210g 
inflag$22$3A1$2C$22platform$2223A22220£$22$ ]D$7D$2C 
$22comm$22$3A$7B$22uin$22$3A0$2C$22format22223A£22 
]30n$22$2C$22ct$22$3A20$2C$22cv$22$3A0$7D$ 7D' 
yield scrapy.Bequest[url, dont Filler True, 
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cullback-selr.get dáta, 
meta-['1':1,'song singer':song singer}, 
COOkies-self.cookies) 


# 每 一 首 歌曲 信息 
der get data(self, response): 
# 参数 传递 
# song singer 为 歌手 名 字 
# 为 歌曲 信息 
song singer = response.meta['song singer'] 
i — response.meta['i'] 
# items .py 文件 的 类 的 实例 化 ， 用 于 传递 数据 给 pipelines.py 实现 存储 
items = MusicItem() 
# 获取 下 载 歌 曲 的 purl 
purl = json.loads (response.body.decode('utf-8')) 
['rewv ü*'1rp*data'Tlp'miduriinto"l1TOl) | puri] 
# 数据 写 入 items， 用 于 传递 数据 给 pipelines .py 实现 存储 
items['song url']-'http://isure.stream.qqmusic.qq.com/$s' $(purl) 
iLems| "song singer] — song singer 
items['song name'] = i['musicData']['songname'] 
items['song ablum'] = i['musicData']['albumname!'] 
items["'song interval'] = 1['"musicData'"] [*xntEerval .' ] 
items['song songmid'] = i['musicData']['songmid'] 
yield items 


上 述 代 码 一 共 定 义 了 6 个 类 方法 ， 每 个 方法 所 实现 的 功能 如 下 : 


start requests( 〇 首先 获得 start urls € gà URL 信息， 然后 循环 27 X, 分别 得 到 字母 A~Z 
特殊 符号 # 传 入 URL, 生成 不 同 字 母 分 类 的 URL 地 址 。 最 后 对 27 个 URL 发 送 GET HK, 
由 于 项 目 需 要 对 同一 个 URL 发 送 多 次 请 求 获取 不 同 的 数据 ， 因 此 dont filter=True 是 关闭 
重复 访问 URL 的 设置 ; 参数 meta 是 将 start requestsO 的 数据 传递 到 回调 方法 
get genre singer()。 此 外 还 使 用 了 Splash 实现 网 站 的 Cookies 获取 ， 由 于 歌曲 下 载 需 要 使 
用 Cookies 里 的 信息 ， 因 此 通过 Splash 来 获取 Cookies 内 容 ， 从 而 得 到 歌曲 下 载 的 请 求 参 
get genre singerO 是 处 理 start requests()*] 27 个 URL Rž GET 请 求 的 响应 内 容 。 首 先 分 
别 获 取 start requestsO 传 递 的 meta 参数 和 当前 分 类 的 总 页 数 (来 自 于 start. requests() 发 送 
GET 请 求 的 响应 内 容 )， 使 用 得 到 的 数据 构建 新 的 URL， 其 URL 代表 当前 分 类 的 每 一 页 
的 歌手 信息 ， 最 后 对 新 构建 的 URL 发 送 GET 请 求 ， 回 调 方法 为 get singer songs(). 

get singer songsO 是 处 理 get genre singer() 发 送 GET 请 求 的 响应 内 容 。 其 响应 内 容 是 获取 
当前 分 类 的 每 一 页 的 歌手 信息 ， 得 到 的 歌手 信息 以 列表 形式 表示 ， 通 过 遍历 该 列表 分 别 得 
到 每 位 歌手 的 singermid， 然 后 构建 新 的 URL， 其 URL 代表 当前 歌手 的 主页 面 。 最 后 对 新 
的 URL 发送 GET 请求， 获取 当前 歌手 的 全 部 信息 ， 回 调 方法 是 get singer info()， 并 传递 
参数 meta， 代 表 当 前 歌手 的 singermid., 

get singer info0 是 处 理 get singer songs() 发 送 GET 请 求 的 响应 内 容 , 从 响应 内 容 中 获取 歌 
手 的 信息 并 计算 歌曲 的 总 页 数 , 使 用 得 到 的 信息 构建 新 的 URL, 代表 当前 歌手 的 每 一 页 歌 
曲 ， 最 后 对 新 构建 的 URL 发 送 GET 请 求 ， 回 调 方法 是 get song info), žk meta 为 歌手 
姓名 。 
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è get song info0 是 从 上 一 请 求 的 响应 内 容 中 获取 歌曲 信息 ， 歌 曲 信息 以 列表 形式 表示 ， 通 
过 遍历 该 列表 分 别 获取 每 一 首 歌 的 信息 ， 并 使 用 得 到 的 歌曲 信息 构建 新 的 URL， 其 URL 
用 于 获取 下 载 歌 曲 的 vkey 等 下 载 信 息 ， 最 后 对 该 URL 发 送 GET 请 求 ， 回 调 方法 为 
get data0， 参 数 meta 是 歌手 和 歌曲 信息 。 

e get data( 〇 是 最 后 一 个 回调 方法 , 主要 用 于 获取 歌曲 的 下 载 链接 和 歌曲 信息 。 通过 处 理 上 一 
请 求 的 响应 内 容 得 到 歌曲 下 载 的 信息 并 构建 歌曲 下 载 链接 ， 同 时 将 得 到 的 歌曲 信息 和 新 构 
建 的 下 载 链接 写 入 Items 对 但 并 返回 给 Item Pipelines, 


从 整个 Spider 分 析 ， 实 现 步 又 是 : 全 部 字母 分 类 歌手 列表 一 当前 字母 分 类 歌手 列表 一 当前 分 
关 每 页 的 歌手 列表 一 当前 分 类 当前 页 数 的 每 位 歌手 一 当前 歌手 的 每 页 歌曲 列表 一 当前 歌手 的 当前 
歌曲 页 数 的 每 一 首 歌 曲 一 获取 歌曲 信息 并 下 载 歌 曲 。 

从 实现 步骤 与 第 18 章 实现 步 又 的 对 比 可 以 友 现 两 者 的 顺序 是 相反 的 ， 前 者 是 从 大 到 小 、 从 面 
到 点 的 实现 方式 ， 后 者 是 从 小 到 大 、 从 点 到 面 的 实现 方式 。 

运行 项 目 之 前 ， 还 需要 开局 Splash 服务 器 ， 在 电脑 上 找到 Docker Quickstart Terminal 图 标 并 
双击 运行 。 成 功 启 动 Docker 之 后 ， 输 入 Splash 局 动 指令 docker run -p 8050:8050 scrapinghub/splash 
并 按 回 车 键 即 可 ， 如 图 25-3 所 示 。 


scrapinghub/splash 
2015-11-12 Q085:18: JUUL og opened. 
2018-11-12 08:18:58. Splash version: 3.2 
2015-11-12 08:18:56. 774236 Qt 5.9.1, PyQt 5.9, WebKit 602.1, 
2018-11-12 08:18:55. 774057 Python 3.5.2 (default, Nov 23 
2018-11-12 08:18:56. 77506% Üpen files limt: 1045b5/f6 
2018-11-12 08:18:58. (1533 Can t bump open files limit 
2018-11-12 08:18:56. 913411 Kvfb is started: | Xvfb , :167948583 , -: 


DStandardPaths: DG RUNTIME DIR not set, defaulting to /tmp/runtime-root 
2018-11-12 08:18:58. 785750 |-] proxy profiles support is enabled, proxy pi 
E 


2018-11-12 08:15:59. 374965 
2018-11-12 | 
2015-11-12 
20ls-11-12 
2018-11-12 
2018-11-12 08:18:5 
2018-11-12 08:18 


verboslty=1 


'OSO60 slots=50 
argument cache max entries-b5ÜüÜ 


a 

2] 

-| Veb UI: enabled, Lua: enabled (sandbox: en: 
- | 

=] 

=] 


I GU CI CI DA 


berver listening on U. U. 0. 0:5050 
slte starting on S050 
Starting factory &twisted.web.server.b»ite í 


图 25-3 开局 Splash 服务 器 


在 CMD 窗口 或 PyCharm 的 Terminal 窗口 下 输入 指令 scrapy crawl Music， 局 动 并 运行 项 目 
music。 项 目 运行 完成 后 ， 打 开 music db 数据 库 查 看 数据 表 song 的 数据 信息 ， 如 图 25-4 所 示 ; [uj 
时 打开 DD 盘 的 full 文件 夹 合 看 歌曲 下 载 信息 ， 如 图 25-5 所 示 。 


FH song @music db (MyDb) - Æ 


EP 开始 事务 ”月 文本 yma licum RSA RSH 
song id song name song ablum — song interval song songmid song singer song url 
1 Chicago Blues Shuffle Summer Fun V: 205 000C GbT93aMkzs Anthony Proveaux http://isure.4 
2 Love Obituary Cava de Blues: 257 0018f9Nx1ew8As A Contrablues http://Isure.4 
3 We Don't Know Cava de Blues: 000r1dWk1izFov A Contrablues http://isure.s 
4 Double Wail Cava de Blues: 002wQ9U53JfJuU A Contrablues http://isure.s 
5 Chances Cava de Blues: 0019Uqi1l2gnVML A Contrablues http://isure.s 
6 Freight Train Cava de Blues: 2: O00UBFOn2yLtoC A Contrablues http://isure.s 
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图 25-4 数据 表 song 的 数据 信息 


» 软件 (D:) > full 


Pu 


标 是 参与 创作 的 三 … 


Cool Jazz Blue — Anthony Prov.. Easy Listening Volu... 2,649 KB 

O0bvHWpO.. Get You Goin wra KASERA 2,720 KB 
000CGbT93a.. Chicago Blues.. Anthony Prov.. | Summer Fun Volum... 2,446 KB 
ODODOVWZS3.. Hiding A Contrablues Blues a l'Estudi: À ... 3,127 KB 


图 25-5 歌曲 下 载 信息 
: = Æ 
25.5 Jk 4 » %4 


本 章 介 绍 了 使 用 Scrapy ii SER QQ 音乐 的 程序 , 通过 本 章 的 学 习 ， 读 者 应 当 掌 握 以 下 技能 : 

1. Scrapy MER QQ 音乐 的 开发 顺序 

setting.py: 配置 爬虫 信息 ， 如 请 求 头 、 数 据 库 信息 、 文 件 保 存 路 径 。 

items.py: 定义 存储 数据 对 和 旭 ， 主 要 存储 歌曲 相关 信息 。 

pipelines.py: 数据 存储 ， 实 现 歌 曲 信息 入 库 和 歌曲 下 载 。 

spiders 文件 夹 (musicSpiderpy) : 2875 /f& RLW] , 

2. IHRER 

setting.py 是 对 整个 项 目的 配置 ， 本 项 目的 配置 如 下 : 

e [tem Pipelines: 项 目 创建 时 ,默认 配置 MusicPipeline 类 ,还 需要 添加 DownloadMusicPipeline 
下 载 类 。 该 类 继承 自 父 类 FilesPipeline， 主 要 实现 歌曲 下 载 功 能 。 

e 数据 库 信 息 : 该 配置 属于 自 定 义 配 置信 息 ， 变 量 MYSQL CONNECTION 是 字符 串 格 式 ， 
hd SQLAlchemy 连接 数据 库 语 句 。 数 据 库 系统 为 本 地 数据 库 系统 , 数据 库 为 music db. 

e HRA: 配置 默认 的 请 求 头 内 容 ， 如 果 项 目 中 发 送 HTTP 请 求 时 并 没有 指定 请 求 头 ， 就 默 
认 使 用 该 配置 作为 请 求 头 。 

e 文件 保存 路 径 : 属于 自 定义 配置 信息 ， 变 量 FILES STORE 为 字符 串 格式 ， 内 容 是 系统 有 
效 路 径 ， 主 要 用 于 歌曲 下 载 的 保存 路 径 。 

e items.py 主要 定义 歌曲 信息 寄存 的 对 象 ， 街 接 Spider 和 Item Pipelines， 使 两 者 之 间 的 数据 

e Item Pipelines 主要 实现 两 个 功能 : 歌曲 信息 入 库 和 歌曲 下 载 。 两 个 功能 的 数据 来 源 都 是 
Items 所 定义 的 数据 对 和 象 。 歌 曲 信息 入 库 主要 由 MusicPipeline 实现 ， 歌 曲 下载 由 类 方法 
get media requestsO 和 file pathO 共 同 实 现 ， 两 者 都 是 从 父 类 FilesPipeline 继承 并 重 写 的 。 


3. 有 爬虫 规则 Spider 
JEEN] Spider 共有 6 个 类 方法 ， 分 别 说 明 如 下 。 
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start requests: 歌手 字母 分 类 A-Z, $5 Spider 的 start requests, 
get genre singer: 获取 每 个 字母 分 类 下 的 每 页 歌手 。 

get singer songs: 获取 每 一 个 歌手 的 信息 。 

get singer info: 获取 歌手 的 每 一 页 歌曲 。 

get song info: 获取 每 一 页 的 每 一 首 的 歌曲 信息 。 

get data: 每 一 首 歌曲 的 信息 。 


从 整个 Spider 分 析 ， 实 现 步 又 是 : 全 部 字母 分 类 歌手 列表 一 当前 字母 分 类 歌手 列表 一 当前 分 
关 每 页 的 歌手 列表 一 当前 分 类 当前 页 数 的 每 位 歌手 一 当前 歌手 的 每 页 歌曲 列表 一 当前 歌手 的 当前 
歌曲 页 数 的 每 一 自 歌曲 一 获取 歌曲 信息 并 下 载 歌 曲 。 

从 实现 步 又 与 第 18 章 实 现 步 骤 的 对 比 可 以 及 现 两 者 的 顺序 是 相反 的 ， 前 者 是 从 大 到 小 、 从 面 
到 点 的 实现 方式 ;后 者 是 从 小 到 大 、 从 点 到 面 的 实现 方式 。 


€ RBS. E ex x 


26.1 非 框 染 式 息 虫 部 团 


当 我 们 完成 息 虫 的 开发 后 ， 项 目 束 会 进入 交付 阶段 ， 即 将 项 目的 相关 文件 和 程序 都 一 并 交付 
给 使 用 者 〈 也 称 为 甲 方 ) 。 项 目 交 付 涉 及 到 项 目 部 灵 的 问题 ， 对 于 非 框架 式 的 爬虫 程序 其 部 普 方 式 
WF: 


(D 创建 可 执行 程序 ， 使 用 者 只 需 双 击 程序 即 可 运行 爬虫 。 

(2) 制定 任务 计划 程序 ， 利 用 计算 机 的 任务 管理 器 来 控制 朴 虫 程序 的 运行 时 间 ， 无 需 使 用 者 
操作 ， 实 现 目 动 化 爬虫 。 

(3) 创建 服务 程序 ， 利 用 计算 机 的 服务 程序 来 运行 候 虫 程序 ， 只 要 计算 机 没有 关机 ， 有 的 虫 每 
时 每 刻 都 在 运行 。 


26.1.1 创建 可 执行 程序 


对 于 有 扑 虫 使 用 者 来 说 ， 他 们 并 不 会 开发 程序 ， 更 不 会 使 用 指令 去 运行 程序 ， 尽 定 他 们 能 使 用 
指令 运行 程序 , 但 还 要 为 他 们 的 计算 机 搭建 开发 环境 。 厦 以 这 样 的 方式 交付 项 目 , 使 用 者 是 肯定 不 
乐意 接受 的 ， 因 此 我 们 还 需要 将 程序 打包 成 可 执行 程序 。 

可 执行 程序 是 可 在 操作 系统 存储 空间 中 浮动 定位 的 二 进 制 可 执行 程序 ， 它 可 以 加 载 到 内 存 中 ， 
并 由 操作 系统 加 载 并 执行 。 以 Windows 操作 系统 为 例 ， 它 的 可 执行 程序 主要 以 .EXE 为 后 级 的 文件 
表示 ， 比 如 常见 的 QQ、 谷歌 浏览 器 等 这 类 软件 。 

右 将 爬虫 程序 打包 成 EXE 文件 ， HIER FEE TENES UR AEREAR GUT Ac 非 框 架 式 开发 是 指 
使 用 urllib, requests 和 BeautifulSoup 等 这 类 疏 虫 模块 实现 的 爬虫 程序 ， 整 个 过 程 不 涉及 疏 虫 框 以 ， 
如 Scrapy 和 PySpider 等 。 

Python 将 py 文件 打包 成 EXE 文件 需要 借助 第 三 方 模块 实现 ， 目 前 第 三 方 的 打包 模块 主要 有 
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三 种 : py2exe. PylInstaller 和 cx Freeze。 本 书 以 PyInstaller 为 例 ， 讲 述 如 何 将 py 文件 打包 成 EXE 
文件 。 

使 用 PyInstaller 打包 EXE 之 前 ， 需 要 安装 PyInstaller 模块 ， 安 装 方式 可 以 使 用 pip 指令 完成 ， 
也 可 以 目 行 下 载 wh 安装 包 ， 安 装 指令 如 下 所 示 : 

tf Dip 在 线 安装 pyinstaller 

pip install pyinstaller 


# 从 whl 安装 包 安 装 pyinstaller 
pip install PyInstaller-3.4-py2.py3-none-any.whl 


PyInstaller 成 功 安装 后 ,我 们 在 D 盘 里 创建 文件 夹 spider 并 在 文件 夹 里 创建 mySpider.py X fF, 
然后 打开 mySpider.py 文件 ， 编 写 一 个 简单 的 肘 虫 程序 ， 代 人 码 如 下 : 

import requests 

url = 'https://www.python.org/' 

E = regnests ee 

f = opení(r'd-YXXsprderVXXdata-Ext', 'w'") 

I-writctr.text) 

f.close(t) 

上 述 代 码 是 访问 Python 的 官方 网 页 ， 并 将 网 页 内 容 写 入 spider LHH data.txt 文件 。 下 一 步 
在 DD REJE pack 文件 夹 ， 打 开 CMD 窗口 并 将 CMD 当前 的 路 径 切 换 到 pack 文件 夹 所 在 路 径 ， 然 
后 在 CMD 窗口 输入 程序 打包 指令 pyinstaller D:\spidermySpiderpy， 如 图 26-1 所 示 。 


ga CA\Windows\system32\cmd.exe 


D:\pack>pyinstaller D:\splder \mySplder. py 


图 26-1 程序 打包 过 程 


按 回 车 键 运行 指令 的 时 候 ，CMD 窗口 会 出 现 相 关 的 运行 信息 ， 直 到 出 现 “ completed 
successfully” 就 代表 程序 已 打包 成 功 。 由 于 CMD 窗口 的 路 径 是 在 D 盘 的 pack 文件 夹 ， 因 此 打包 
后 的 EXE 程序 会 存放 在 pack 文件 来 ， 我 们 也 可 以 从 运行 信息 里 找到 EXE 所 在 的 路 径 信息 ， 如 图 
26-2 HIZR o 

12352 INFO: Àppending archive to EXE D: ip ackbuildmySpider'*mySpider. exe 
12355 INFO: Building EXE from REXBE-00.to0c completed successfully. 
123599 INFU; acking COLLECT 


12358 INPO: Building COLLECT because COLLECI-UO. toc 1s non existent 
12360 INFO: Building COLLECT COLLECT-Q00. toc 
12560 INFO: Building COLLECT COLLECI-UU0. toc completed successfully. 


图 26-2 ”程序 打包 成 功 


打开 EXE MEFE, RILE Y mySpiderexe 之 外 ， 还 夹带 了 很 多 pyd 和 dll 文件 。 当 我 
们 双击 运行 mySpiderexe 后 ， 程 序 会 出 现 一 个 运行 窗口 ， 如 果 程 序 运行 过 程 中 出 现 错误 都 会 显示 
在 运行 窗口 上 。 程 序 运行 完成 后 ， 运 行 窗 口 会 目 动 关 财 ， 如 条 窗口 没有 出 现 错误 信息 ， 说 明 程序 运 
行 成 功 ， 如 图 26-3 所 示 。 此 外 ， 我 们 也 可 以 验证 文件 严 spider f 019 data.txt 文件 来 验证 程序 是 
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A DApackAdistimySpider mySpider.exe 


图 26-3 ”运行 窗口 


由 于 mySpider.exe 所 在 的 文件 夹带 有 很 多 pyd 和 dll 文件 ， 如 果 使 用 者 因 操 作 不 当 而 误 删 了 某 
个 文件 ， 这 样 会 导致 mySpider.exe 无 法 执行 。 为 了 更 好 地 解决 这 一 问题 ， 我 们 在 打包 的 时 候 可 以 
加 入 参数, 把 依赖 文件 一 并 打包 到 mySpider.exe 文件 里 , 在 CMD 窗口 输入 程序 打包 指令 pyinstaller 
-F -w Di:\spidermySpider.py， 如 图 26-4 所 示 。 


EN CWindows\system32\cmd.exe 


D:\pack>pyinstaller -F -w D:\spider\myrSpider. py 


图 26-4 程序 打包 过 程 
参数 -F 必须 为 大 写 ， 这 是 将 依赖 文件 一 并 打包 到 mySpider.exe 文件 ;参数 -w 必须 为 小 写 ， 这 
是 隐藏 程序 控制 台 ， 可 以 美化 程序 运行 ， 因 为 Python 某 些 模块 会 出 现 程序 控制 台 ， 如 PyQts 和 
Selenium。 程 序 打包 成 功 后 ， 在 D:packvdist 路 径 下 找到 mySpider.exe 文件 ， 发 现 依赖 文件 已 压缩 
到 EXE 文件 ，mySpider.exe 的 大 小 从 2MB 变 为 7MB， 如 图 26-5 所 示 。 
> 软件 (D) > pack > dist 


b 
名 称 修改 日 期 


| d 


加 mySpider.exe 2018/11/23 14:19 


图 26-5 mySpider.exe 文件 


26.1.2 制定 任务 计划 程序 


虽然 我 们 已 将 爬虫 程序 打包 成 可 执行 程序 给 使 用 者 使 用 ， 但 对 于 一 些 要 求 比 较 高 的 使 用 者 来 
说 ， 每 次 运行 爬虫 都 要 目 己 双击 运行 程序 ， 显 得 不 够 人 性 化 ,那么 是 否 不 用 双击 就 能 目 动 运行 爬虫 
程序 呢 ? 本 下， 我 们 将 讲述 如 何 将 可 执行 程序 实现 目 动 化 运行 。 

在 操作 系统 中 ， 有 一 个 系统 功能 叫做 定时 任务 ， 不 同 的 操作 系统 ， 定 时 任务 都 有 不 同 的 操作 
方式 。 以 Windows10 为 例 ， 定 时 任务 也 称 为 任务 计划 程序 ， 打 开 任 务 计 划 程 序 的 方式 有 多 种 ， 这 
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里 在 计算 机 的 “控制 面板 ”里 找到 并 单 击 “ 管 理工 具 ” 图 标 ， 在 管理 工具 的 窗口 中 可 以 看 到 “任务 
计划 程序 ”图 标 ， 单 击 后 即 可 打开 任务 计划 程序 窗口 ， 如 图 26-6 所 示 。 


O {计划 程序 


XC) 


操作 (A) ”查看 (V) ENH) 


€ »| m UA 
(B 任务 计划 程序 (本 地 ) 之 称 


wv o 任务 计划 程序 库 
Microsoft 
3 MySQL 


(b Adobe Acr.. £F PENS TEH 

(D AutoPico D.. ; 省 ”在 每 大 的 23:59 

(5 NvBatteryB.. EEMS ” 当 任 何 用 户 登 录 时 

(DNvDriverU.. 准备 就 洗 在 每 天 的 12:25 

IE | 775 y| |S 启用 所 有 任务 历史 记录 


Th ana ar 


> 


Adobe Systems Incorporated 


This task keeps your Adobe Reader and Acrobat applications ug 
enhancements and security fixes 


图 26-6 打开 任务 计划 程序 


从 任务 计划 程序 窗口 看 到 ， 窗 口 正 上 方 是 任务 计划 列表 ， 每 个 任务 计划 都 有 种 规 、 触 上 友 船 、 
操作 、 条 件 、 设 置 和 历史 记录 等 基本 功能 ， 各 个 功能 说 明 如 下 。 


常规 : 设置 当前 任务 计划 的 名 称 、 位 置 、 创 建 者 和 任务 描述 等 基本 信息 

BRR: 设置 任务 的 触发 条 件 ， 比 如 任务 的 运行 时 间 、 运 行 间隔 、 运 行 条 件 等 信息 . 

操作 : 指定 当前 任务 所 运行 的 程序 ， 这 是 将 程序 与 任务 进行 绑 定 。 

条 件 : 与 触发 器 一 起 作为 任务 运行 的 条 件 ， 如 设置 计算 机 的 状态 、 电 源 状 态 和 网 络 状态 来 
决定 是 否 执 行 任务 。 

设置 : 根据 任务 运行 期 间 的 状态 进行 设置 ， 如 设置 运行 超时 、 运 行 失 败 等 异常 操作 。 
历史 记录 : 负责 记录 运行 信息 ，Windows10 系统 已 被 禁用 。 


大 致 了 解 任务 计划 程序 的 基本 蕊 能 后 ， 接 下 来 是 创建 任务 计划 ， 单 击 图 26-6 右 侧 的 创建 任务 
束 会 出 现 创 建 任务 窗口 ， 该 窗口 出 现 5 个 功能 选项 卡 ， 分 别 用 来 设置 任务 的 基本 功能 ， 如 图 26-7 


所 示 。 


在 “常规 ”选项 卡 里 ， 一 般 设 置 任务 名 称 和 描述 即 可 ， 其 他 设置 使 用 默认 即 可 ， 我 们 将 任务 
名 称 设 为 mySpider, RARA "run mySpider.exe” 即 可 完成 常规 选项 卡 的 设置 。 然 后 单 击 “人 触 
发 器 ”选项 卡 ， 单 击 “ 新 建 ”按钮 ， 创 建新 的 触发 器 ， 如 网 26-8 所 示 。 
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D 创建 任务 


SÜ 。 触发 器 操作 si HE 


名 称 (M): |mySpider 


(78: A 


创建 者 : DESKTOP-GOD9Q18\000 


撒 述 (D); | run mySpider.exe 


安全 选项 
运行 任务 时 ， 请 使 用 下 列 用 户 帐户 : 
DESKTOP-GOD9Q18\000 更 改 用 户 或 组 (U).. 
(€) 只 在 用 户 登 录 时 运行 (R) 
O 不 管用 户 星 否 登 录 都 要 运行 (W) 
不 存储 密码 (P)。 该 任务 梅 只 有 访问 本 地 计算 机 资源 的 权限 ，。 


LL] 使 用 最 高 权限 运行 由 


L] E) EC: Windows Vista", Windows Server™ 2008 


图 26-7 创建 任务 窗口 
FERAH 


THATS O: EETA 
设置 
oy |» Er 证 g- C ER 
(€ 每 天 (D) 
emo: 1 | 天 发 生 一 次 
O SAW m ái 
O &R(M) 


ARRE 
O 任务 最 多 延迟 时 间 ( 随 机 延迟 )(N: 1 小 时 


回 EGER. [1 小 时 v Senao: | 无限 期 vl 


O 任务 的 运行 时 间 超 过 此 信 则 停止 执行 (D:。 3 天 
O 到 期 日 期 9: 2019/11/23 5:50:23 


二 


CAHE) 


图 26-8 ”新 建 触 发 器 


从 新 建 触发 器 的 窗口 看 到 ， 开 始 任 务 是 一 个 文本 下 拉 杠 ， 默 认 值 是 按 预 定 计 划 ， 下 拉 框 还 有 
其 他 触发 条 件 , 如 用 户 登 录 Windows 时 触发 、 局 动 Windows 时 触发 和 发 生 事件 时 触发 等 触发 条 件 ， 
不 同 的 触发 条 件 有 不 同 的 设置 。 

以 按 预 定 计 划 为 例 ， 将 触发 右 设 为 每 天 中 午 12 点 开始 运行 ， 每 隅 1 小 时 就 运行 一 次 ， 持 续 时 
间 为 无 限期 ， 该 设置 说 明 : 只 要 电脑 没有 关机 ， 访 任务 就 会 无 限期 运行 ,运行 旧 隐 为 1 小 时 ; 如 果 
电脑 关机 重 司 了， 当 电 脑 时 间 到 了 中 午 12 点 就 会 无 限期 运行 。 
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触发 右 创 建 后 ， 还 可 以 继续 添加 新 的 触及 幽 或 者 编辑 (删除 ) CB Bf dS. EE T XI 
里 可 以 有 多 个 触发 右 ， 以 便 满足 多 方面 的 需求 ， 如 图 26-9 所 示 。 


D 创建 任务 


mug BHAE 操作 =+ 设置 


创建 任务 时 ， 可 以 指定 般 发 该 任务 的 条 件 ， 


详细 信息 


在 每 天 的 12:00 - 触发 后 ， 无 限期 地 每 隔 1 小 时 重复 一 次 。 
在 2018/11/23 的 15:55 时 


sao. | meo 


图 26-9 触发 器 选项 卡 


下 一 步 单 击 “ 操 作 ” 选 项 卡 ， 将 讨 虫 程序 mySpider.exe 与 计划 任务 进行 绑 定 ， 单 击 “ 新 建 ” 
按钮 ， 创 建新 的 操作 。 在 新 建 操作 的 窗口 里 单 击 浏览 按钮 并 将 讨 虫 程序 mySpiderexe 选中 ， 如 图 
26-10 所 示 。 


掌 规 BARE BFE 条 件 RE | 新 建 操 作 
创建 任务 时 ， 必 须 指定 任务 启动 时 发 生 的 直 你 必须 为 此 任务 指定 要 执行 的 捍 作 ， 
SEO: | 启动 程序 
设置 
I EB Em 
|[DApack\dist\mySpider.exe 
DDR (STIR) (A): 


iter T (ETE) T): 


图 26-10 ”新 建 操作 


操作 创建 后 ， 还 可 以 继续 添加 新 的 操作 或 者 编辑 (删除 ) 己 有 的 操作 ， 一 个 任务 计划 里 也 可 
以 支持 多 个 操作 同时 存在 。 对 于 条 件 和 设置 选项 卡 , 一般 无 须 设 置 ,使 用 上 默认 值 即 可 满足 大 部 分 的 
南 求 ， 因 此 本 书 台 不 再 详细 讲述 。 


第 26 章 ”爬虫 的 上 绪 部 团 


| 421 


任务 创建 成 功 后 ， 在 任务 计划 程序 窗口 里 找到 新 创建 的 任务 mySpider, AXR CUERE 


进行 修改 ， 只 需 双 击 任 务 即 可 进入 修改 窗口 ， 如 图 26-11 所 示 。 


sik H5 


®© 任务 计划 程序 (本 地 ) 


能 发 器 
v (d 任务 计划 程序 库 


T] Microsoft D AutoPi T Z5 “在 每 天 的 23:59 | | 
MySQL : 准备 就 绪 “已 定义 条 个 触发 器 | 双击 可 修改 任务 设置 
(© NvBatteryB..， 准备 就 禾 ” 当 任何 用 户 登 录 时 | 

(D NvDriverU.. 准备 在 每 天 的 12:25 
(D NVIDIA Ge... f 发 生 事 件 时 - 日 志 : Abpl 
(b NvNodeLa.. FE 当 任何 用 户 登 录 时 - 能 发 


M < 
(5 mySpider 屋 性 (本 地 计算 机 ) 
TAL HES 操作 条件 ”设置 历史 记 录 ( 已 禁用 ) 
名 称 (M) 
DIES A 


创建 者 : DESKTOP-GOD9Q18X000 
f&v (D): run mySpider.exe 


图 26-11 ”修改 已 有 任务 计划 


26.1.3 创建 服务 程序 


对 于 一 些 更 为 刁钻 的 使 用 者 来 说 ， 任 务 计划 程序 依然 不 能 满足 他 们 的 使 用 需求 ， 他 们 硕 望 朴 
虫 程 序 每 时 每 刻 都 在 运行 或 者 处 于 生命 的 状态 , 且 程 序 在 运行 的 时 候 义 不 能 出 现 程序 运行 窗口 ， 而 


且 只 硕 望 通过 配置 文件 来 控制 肘 虫 的 运行 和 待命 状态 。 


要 使 肘 虫 每 时 每 刻 处 于 活动 状态 ， 可 以 将 爬虫 程序 设 为 一 个 死 循 环 ， 每 次 循环 的 等 竺 时间 设 
为 10 秒 : 想 要 疏 虫 程序 长 期 运行 又 不 能 出 现 程序 运行 窗口 ， 只 能 将 爬虫 程序 以 服务 程序 的 形式 运 


fT. AARIKE mySpider.py 的 功能 进行 修改 ， 修 改 后 的 代码 如 下 : 


import requests 
import time 
while 1: 
# 读 取 配置 文件 的 任务 内 容 
taskFile = openl(r'd:\\splider\\task.txt") 
task = Ltaskbile-readt) 
taskFile.close() 
tor 1, url in enumerate (task.split(','")): 
1f url: 
E = reg0estCs get (Orr) 
path = r'd:\\spider\\ss.txt' 5(str(1)) 
f = open (path, 'w',encoding-'utf-8') 
Ef writelr. text) 
t.-closef) 
# 清空 配置 文件 的 任务 内 容 
taskFile=open (r'd:\\splder\\task.txt","'w") 
taskFile:write(''} 


NSSM H 


窗口 ， 如 图 26-14 所 示 。 
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taskFile.closet{) 


Cime-sleep{10) 


上 述 代 码 将 爬 里 程序 设 为 一 个 死 循 环 ， 每 次 循环 都 会 谈 取 配置 文件 task.txt 的 内 容 ， 从 文件 内 
容 提取 每 个 URL 地 址 并 对 其 实现 HTTP 请 求 ， 将 响应 内 容 写 入 新 的 txt 文件 ， 最 后 清空 配置 文件 
内 容 ， 防 止 下 次 循环 重复 执行 。 
将 修改 后 的 mySpider.py 文件 进行 打包 处 理 ， 生 成 mySpider.exe 文件 
生成 服务 程序 ， 这 个 实现 过 


X 
— 


Chttp://www.nssm.cc/download) 下 载 NSSM 工具 ， 如 图 26-12 所 示 。 
s + 
CG © 不 安全 


文件 。 下 一 步 是 把 EXE 文件 
实现 过 程 需 要 使 用 辅助 工具 NSSM， 在 浏览 器 中 打开 NSSM 网 站 
N NSSM - the Non-Sucking Se 


WWW.ITSSITI.CC 


/download 
Licence 


o7 


x» © 


nssm Is public domain. You may unconditionally use it and/or its 
source code for any purpose you wish 


Latest release 


nssm 2.24 E 08- EL. 
[Dbe7b357/coeSa260e5 106 


Featured pre-release 


图 26-12 下 载 NSSM 
| i | RAA | HEIT 
机 的 64 位 为 例 


将 下 载 后 的 NSSM 压缩 包 进 行 解压 处 理 ， 然 后 根据 计算 机 的 位 数 选择 相应 的 文件 夹 
D 窗口 并 将 路 径 : 
install) 331; NSSM, Uil 26-13 所 示 。 


X. DE 
X, ll. g 
» 软件 (DJ) > nssm-2.24 > wind 


p^ 


打开 CMD 窗口 并 将 路 径 切 换 到 NSSM 的 win64 文件 夹 ， 输 入 NSSM 指令 (nssm 


名 称 


N nsS5m.exe 


EN CAWindowsWsystem32Xcmd.exe 
D:*^ 


nssm-2. 24 


yinbd>nssm install 
图 26-13 运行 NSSM LR 

E 通 过 CMD 窗口 运行 ， 并 且 CMD 窗口 的 路 径 必 须 为 nssm.exe 所 在 的 路 径 。 如 果 直 
接 双 击 nssm.exe 只 会 出 现 NSSM 的 指令 信息 ， 读 者 可 以 在 CMD 窗口 输入 指令 信 
功能 。 现 在 需要 使 用 NSSM 安装 服务 程序 ， 输 入 nssm install 指 : 


恩 来 使 用 NSSM 
今后 会 出 现 NSSM service installer 
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N NSSM service installer x 


Application | Details | Log on | Dependencies | Process | Shutdown | Exc * D» ] 


D:*pack*distmySpider.exe A 


Startup directory: [D:\pack^dist 2 | | 


Arguments: 


= = | 
Service name: [myS pider Install service Cancel | 


图 26-14 NSSM service installer 窗口 


在 NSSM service installer 窗口 里 ,Path 文件 框 选择 已 打包 好 的 mySpider.exe 文件 , Service Name 
是 对 服务 程序 进行 命名 ， 我 们 将 其 命名 为 mySpider， 最 后 单 击 Install service 按钮 即 可 安装 服务 程 
序 。 
服务 程序 安装 成 功 后 ， 在 WindowslO 时 面 ， 右 键 单 击 果 面 上 的 “此 电脑 ”图 标 ， 在 弹出 的 荣 
汉中 选择 “管理 ”菜单 项 ， 在 打开 的 计算 机 管理 窗口 中 ， 单 击 左 侧 的 “服务 和 应 用 程序 /服务 ” 菜 
单项 ， 在 右 侧 的 窗口 中 就 会 打开 服务 程序 ;在 服务 程序 列表 中 找到 mySpider 服务 并 单 击 “ 启 动 此 
服务 ”， 如 图 26-15 所 示 。 
D 计算 机 管理 
文件 (F) BFA SEV) 帮助 (H) 


描述 RS AAE 
umm all E ix 


1 mySpider 自动 
MySQL R A 


Ü, Net.Tcp Port Sharing Ser... 

| Th Netlogon 

c C Network Connected Devi... 

f XC. Network Connection Bro.. fti .. 


MEN :£. Network Connections 


图 26-15 启动 mySpider 服务 


HATH RAUS. EET E 10 秒 就 会 运行 一 次 ， 如 果 DiNspidertask.txt 的 文件 内 容 不 为 
T (文件 内 容 如 图 26-16 所 示 ) ， 疏 虫 程序 就 会 爬 取 数据 并 且 清 空 文件 内 容 ;， 如 果 文 件 内 容 为 宅 ， 
疏 虫 就 不 做 任何 操作 ， 可 认为 是 处 于 一 种 待命 状态 。 
^1] task.txt - 记事 本 
SUHF) 编辑 (E) 格式 (QO) 查看 (V) 帮助 (H) 


https://movie.douban.com/,https://www.baidu.com/ 


图 26-16 文件 内 容 
服务 程序 开局 后 ， 只 要 计算 机 处 于 开机 状态 ， 服 务 就 会 一 直 处 于 运行 状态 ， 如 果 不 想 使 用 服 
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务 , 可 在 服务 程序 列表 中 停止 服务 。 此 外 , 还 可 以 将 服务 从 服务 程序 列表 删除 。 我 们 右键 单 击 ”CMD ” 
图 标 , 在 弹出 菜单 中 选择 “管理 员 身 份 运行 ? 染 单项 , 在 弹出 的 CMD 窗口 上 输入 删除 指令 sc delete 
mySpider 即 可 删除 服务 程序 mySpider， 如 图 26-17 所 示 。 
EN 管理 员 ; 命令 提示 符 
^rosaoft Uindc hy 10.0. 14393 
(3 2016 Microsoft t 'orp oratione Sin "EIFE EP 


: indos myopider 


fs) DelateSorvice Bu. 


: M indows: 


图 26-17 删除 服务 程序 mySpider 


创建 服务 程序 除 Pus NSSM 工具 之 外 ， 还 可 以 使 用 Python 的 pywin32 模块 实现 ， 利 用 
pywin32 将 爬虫 程序 进行 包装 处 理 ， 然 后 将 爬虫 程序 生成 EXE 文件 ， 最 后 把 EXE 文件 安装 到 电脑 
上 即 可 生成 服务 程序 ， 具 体 的 实现 过 程 本 书 不 再 详细 讲述 


26.2 MERE AE 


TE ZR XAUIE rh Ze dH fie Hl Scrapy 或 PySpider 55:8 rt fe 287T REEFF, KEETA B ET 
运行 方式 。 对 于 这 种 疏 虫 的 部 署 ， 只 能 通过 特定 的 工具 来 实施 ， 我 们 以 Scrapy 框架 为 例 ， 部 署 工 
HZH Scrapyd 和 Gerapy. 


26.2.1 Scrapyd HWZ JE rh Bis 3s 


Scrapyd Æ — 3X H1 T E £8 Scrapy JÉ RI ABARBSTHIHRAS. FH Scrapy 的 开 友 者 开 友 ， 它 是 通 
过 API £z LOK BE Edda] Scrapy MH, 可 以 定理 多 个 项 目 , 并 且 每 个 项 目 还 可 以 上 传 多 个 版 本 ， 
但 只 有 最 新 的 版 本 会 被 使 用 。 Scrapyd 是 开源 软件 ， 代 码 托 管 于 Github 

(https://github.com/scrapy/scrapyd) 。 

使 用 Scrapyd 之 前 ， 需 要 在 Python 的 开 有 环境 下 安装 Scrapyd 和 Scrapyd-Client 模块 ， 安 装 方 
式 可 以 使 用 pip 指令 完成 ， 安 装 指令 如 下 : 

# pip 在 线 安装 Scrapyd 

pip install scrapyd 

# pip 在 线 安装 Scrapyd-Client 

pip install scrapyd-client 

在 使 用 Scrapyd 管理 Scrapy 项 目 之 前 ， 还 要 对 Scrapy 项 目 进行 打包 处 理 ， 打 包 过 程 可 以 选择 
Scrapyd-Client 模块 实现 或 者 使 用 Scrapyd 的 API 接口 。 本 市 以 项 目 douban 为 例 ， 讲 述 如 何 使 用 
Scrapyd-Client 模块 实现 项 目 打包 。 

Scrapyd-Client 模块 安装 成 功 后 ， 还 需要 在 Python 安装 目录 的 Scripts 文件 夹 创建 脚本 文件 ， 
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脚本 文件 命名 为 scrapyd-deploy.bat， 如 图 26-18 所 示 。 


软件 (D: > Python > Scripts 


all ——Á' Uerum 


"®© pyr-archive viewer.exe 


ro © rm rcm 


"œ pyi-bindepend.exe 


图 26-18 ”创建 脚本 文件 


打开 脚本 文件 scrapyd-deploy.bat， 在 文件 里 编写 脚本 代码 ， 其 作用 是 通过 Python 指令 运行 
Scripts 文件 夹 的 scrapyd-deploy 文件 ， 由 该 文件 去 执行 项 目 打包 过 程 ， 代 码 如 下 : 

QGecho off 

"D:XPythonNMpython.exe" "D:XMPythonNMScriptsNscrapyd-deploy" 

$1 $2 $3 $4 $5 $6 $7 $8 $9 

上 述 代 码 的 “python.exe” 是 Python 安装 目录 下 的 Python FES; *scrapyd-deploy " Z& Scripts 
文件 夹 的 scrapyd-deploy 文件 。 读 者 可 根据 实际 开发 环境 进行 配置 ， 如 条 不 编写 脚本 文件 ， 则 在 
CMD 窗口 下 无 法 使 用 指令 打包 Scrapy 项 目 ， 如 图 26-19 所 示 。 


D: : douban»^scr: apy rd-dep Y. u EE | 
| i rd- d 3s Py ATST 内 I ty x ban A s 也 , 趟 是 可 运行 的 程序 


| sera 
sott [处 理 


图 26-19 打包 指令 
脚本 文件 创建 后 ， 下 一 步 是 修改 项 目 文 件 scrapy.cfg 的 配置 内 容 ， 配 置 属性 url 代表 Scrapyd 
的 了 下地 址 。 假 如 在 一 个 局 域 网 内 ， 有 多 台 计 算 机 需要 部 君 不 同 的 Scrapy 项 目 ， 而 且 每 台 计 算 机 都 
A LE Scrapyd 服务 ， 那 么 配置 属性 ul 是 把 当前 项 目 部 羞 到 指定 的 Scrapyd。 配 置 内 容 如 下 
# 一 个 项 目 配置 单一 主机 


[deploy] 
url = http://localhost:69800/ 
project = douban 


# 一 个 项 目 配 置 多 人 台 主 机 
[deploy:doubanll 


url = http://localhost:6800/ 
project = douban 


[deploy:douban? |] 

uti = HECp:yy 139.217. 26. 30: 69BUOy 

project = douban 

如 果 一 个 项 目 只 部 署 在 一 台 计 算 机 上 ， 只 需 定 义 一 个 deploy 属性 即 可 ; 如果 一 个 项 目 部 署 在 
多 台 计 算 机 上 ， 那 么 可 定义 多 个 deploy 属性 ， 并 在 deploy 属性 后 添加 冒号 和 名 称 ， 如 
" deploy:doubanl " 


426 | 实战 Python WAWE 


上 述 方法 只 是 为 项 目 打包 做 准备 工作 ， 接 下 来 是 执 4 TIAE E D 盘 下 创建 文件 夹 
deployScrapy， 打 开 CMD 窗口 并 将 路 径 切 换 到 deployScrapy 的 路 径 ， 输 入 Scrapyd 服务 开局 指令 
scrapyd， 如 图 26-20 所 示 。 


J: \deploySc Tapy?s crap yd 

20U18- -29[ 1 4:29: | [-] Loading d:\python\lib 
4015-11-29114:. 29:52 j [-] scrapyd web console a 
2018-11-2917 14:29: ) [-] Loaded. 
2018-11-29T14:: CMS [twisted. application. app.. 


2018-11-29T14:29:52+0800 [twisted. application. app.. 
actor. 

2018-11-29T14:29:52+0800 [-] Site starting on 6800 
2018-11- 29T14:29:52+0800 [twisted. web. r. Sited 


201; 2-11-29114:2 9:5240800 [Launcher] Scrapyd 1.2.0 


图 26-20 Jf & Scrapyd 服务 


Scrapyd 服务 开启 后 ， 再 次 打开 一 个 新 的 CMD 窗口 ， 将 路 径 切 换 到 项 目 douban， 也 就 是 项 目 
scrapy.cfg 文件 所 在 路 径 。 如 果 项 目 只 部 奢 在 一 台 主 机 上 ， 打 包 指 令 为 scrapyd-deploy. "n 26-21 
PIA e 


Adouban»scrapyd-deploy 
lacking version 154: ESSE 
Jep loying to project "douban' in http://localhost:6800/addversion. json 
oerver response (200): 
人 node name : "DESKTOP-GOD9Q018", “status’: “ok”, “project”: "douban', 


图 26-21 单 点 部 团 


如 果 项 目 部 车 在 多 台 主 机 上 ， 就 要 多 次 输入 打包 指令 ， 比 如 deploy 属性 设 有 doubanl 和 
douban2, 输入 两 次 的 打包 指令 分 别 为 scrapyd-deploy doubanl 和 scrapyd-deploy douban2。 由 于 deploy 
属性 为 douban2 的 url 属性 是 不 存在 的 IP 地 址 ,因此 在 打包 过 程 中 会 出 现 无 法 连接 的 错误 信息 ， 如 
图 26-22 所 示 。 

D:Xdouban?scrapyd-deploy doubanl 

Packinz version 1543 4 206b  — E | 

Deploying to project  douban in http://1localhost:6800/addversion. json 


Serv er response (200): 
人 node_name": ` “DESETOP- GODOQ18 ， status : ok, project : douban ， 


D:Xdouban?scrapyd-deploy douban?2 

Facking version 1543 Arcor ds 

Deploying to project douban in http://130. 217. 26. 30:6800/addversion. ` 
Deploy failed: <urlopen error Moea 10061] 由 于 目标 计算 机 积极 拒绝 


图 26-22 多 点 部 署 


项 目 打包 成 功 后 ， 打 开 并 查看 项 目 douban 和 文件 夹 deployScrapy 的 文件 信息 ， 发 现 两 者 都 新 
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增 了 相关 文件 和 文件 夹 ， 如 图 26-23 PR. 


脑 » 软件 (DJ > deployScrapy 


P^ 


| | 4dea 

|. | build 

| | douban 

| | project.egg-info 

| | scrapy.cfg 

[A setup.py Python File 


图 26-23 ”文件 信息 


在 文件 夹 deployScrapy 里 共有 三 个 文件 来， 分 别 为 dbs、eggs 和 logs， 三 者 存储 Scrapy M H 
的 数据 信息 ， 说 明 如 下 ; 


e dbs 是 为 已 部 署 的 Scrapy 项 目 生成 相应 的 数据 库 文件 ，Scrapyd 每 部 署 一 个 项 目 都 会 生成 
= 

e eggs 是 Scrapy 项 目的 版 本 信息 ， 如 果 多 次 打包 同一 个 项 目 ， 则 会 生成 多 个 版 本 信息 
次 Scrapyd 运行 项 目 都 会 选择 最 新 版 本 。 

e logs 是 记录 Scrapy 项 目的 运行 信息 ， 每 次 Scrapyd 运行 项 目 都 会 生成 一 个 txt 文件 ， 记 录 
项 目的 运行 情况 。 


调用 Scrapyd 的 API 接口 来 运行 Scrapy 项 目 ， 必 须 保证 已 开局 Scrapyd 服务 并 且 Scrapy 项 目 
己 做 打包 处 理 。 调 用 API 接口 可 以 使 用 Requests 模块 ， 实 现 过 程 与 编写 爬虫 是 同一 个 原理 。 以 运 
£T Scrapy 爬虫 和 删除 爬虫 为 例 ， 调 用 方法 如 下 : 


import requests 

d 运行 Scrapyd 的 Scrapy 

url = 'http://localhost:6800/schedule.json' 

data = ( 
# 参数 project 是 scrapy .cfg 的 属性 project 
"projecE': "donban', 
# 参数 spider 是 项 目 spider 的 name 属性 
"splder': 'Movie' 

} 

r roguests-postiguri dáta- dota) 

print (r.]Json()) 
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# 删除 Scrapyd 的 Scrapy 
url = 'http://localhost:6800/delproject.json' 


data = ( 
# 235 project 是 scrapy.cfg 的 属性 project 
'project': 'douban', 


} 
ro roeguests posturi; data-dartal 
print (r.]J]son()) 


调用 Scrapyd 的 API 接口 只 需 对 请 求 地 址 发 送 指定 的 HTTP 请 求 以 及 设置 指定 的 请 求 参数 即 
Hf, Serapyd 的 官方 文档 已 对 每 个 API 接口 做 了 详细 介绍 (https://scrapyd.readthedocs.io/en/latest/ 
api.html〉， 本 书 就 不 再 重复 讲述 。 

项 目 部 普 成 功 后 ， 如 果 要 对 项 目的 功能 进行 修改 ， 每 次 修改 后 部 要 重新 打包 项 目 ， 在 Scrapyd 
的 eges 文件 夹 里 生成 最 新 的 版 本 信息 ， 天 则 Scrapyd 运行 项 目的 时 候 ， 项 目 还 是 会 以 修改 前 的 方 
式 运行 。 

此 外 ,我 们 还 可 以 查看 Scrapyd 的 配置 信息 ,在 Python 的 安装 目录 下 找到 Scrapyd 模块 包 , 在 
模块 包 下 找到 default scrapyd.conf 文件 (Lib\site-packages\scrapyd\default scrapyd.conf) ， 使 用 记 
事 本 打开 即 可 查看 Scrapyd 的 配置 信息 ， 如 图 26-24 所 示 。 


[scrapyd] 

eggs dir 

logs dir 

items dir 

jobs to keep 5 

dbs dir = dbs 

max proc = 0 

max proc per cpu = 4 
finished to keep = 100 

poll interval = 5.0 

bind address — 127.0.0.1 
http port = 6800 

debug ofr 

runner scrapyd. runner 
application = scrapyd.app.application 


launcher scrapyd. launcher .Launcher 
webroot = scrapyd.website.Root 


[services] 

schedule.json = scrapyd.webservice.Schedule 
cancel.json 3crapyd.webservice.Cancel 
addversion.json scrapyd.webservice.AddVersion 
listprojects.json scrapyd.webservice.ListProjects 
listversions.json 3crapyd.webservice.ListVersions 
listspiders.json scrapyd.webservice.List5piders 
delproject.json 3crapyd.webservice.DeleteProject 
delversion.json scrapyd.webservice.DeleteVersion 
listjobs.json scrapyd.webservice.ListJobs 
daemonstatus.json 3crapyd.webservice.DaemonStatus 


图 26-24  Scrapyd 的 配置 信息 
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综 上 所 述 ，Scrapyd 管理 和 部 署 Scrapy 项 目的 操作 方法 如 下 


(1) 创建 脚本 文件 scrapyd-deploy.bat， 通 过 bat 脚本 运行 scrapyd-deploy 文件 ， 实 现 项 目 打包 
处 理 。 

(2) 修改 Scrapy 项 目 文件 scrapy.cfg 的 配置 内 容 ， 根 据 部 赦 方 式 配置 属性 url 和 project. 

G) 新 建 CMD 窗口 ， 将 窗口 路 和 任 切 换 到 菜 个 文件 夹 ， 输 入 Scrapyd 服务 开局 指令 scrapyd。 

(40 再 次 新 建 CMD 窗口 ， 将 窗口 路 径 切 换 到 项 目 所 在 的 文件 来 ， 根 据 部 署 方式 输入 相应 的 
打包 指令 ， 把 项 目 打包 到 Scrapyd 服务 里 。 

(5) 使 用 Requests 模块 调用 Scrapyd 的 API 接口 ， 在 Scrapyd 服务 里 实现 Scrapy 项 目的 调度 


26.2.2 Gerapy [Er e 184622 


Gerapy 是 一 秋分 布 式 爬 虫 管理 框架 ， 它 在 Scrapyd 和 Scrapyd-Client 的 基础 上 进行 封装 ， 
Scrapy 项 目 管 理 实现 可 视 化 操作 。 人 简单 来 说 ，Gerapy 是 一 个 使 用 Django 开发 的 管理 系统 ， de 
部 署 和 管理 Scrapy Ji H . 

使 用 Gerapy 之 前 ， 需 要 在 Python 的 开发 环境 下 安装 Gerapy IER, ARNAN UEH pip 18 
令 完 成 ， 指 令 如 下 : 

# pip 在 线 安 装 Gerapy 

pip install Gerapy 

Gerapy 安装 成 功 后 , Æ D REELE MyGerapy. 打开 CMD 窗口 并 将 当前 路 径 切 换 到 文件 
J MyGerapy 所 在 路 径 ， 然 后 输入 指令 gerapy CDM 窗口 就 会 显示 Gerapy 框架 的 管理 指令 ， 如 图 
26-25 所 示 。 


Crapy^2gerapy 


(Dn C 


y init [--folder-&folder?| 
v migzrate 

Y createsuperuser 

Y LSCLYGCL [<ho St.port >] 


Ig 


图 26-25 ”管理 指令 

Gerapy 框架 共有 4 个 指令 ， 它 们 只 适用 于 Gerapy IERE E, WHU P: 

* gerapy init 是 初始 化 Gerapy 系统 ， 创 建 一 个 新 的 Gerapy 系统 ， 用 于 部 署 和 管理 Scrapy 项 目 。 

* gerapy migrate 是 对 Gerapy 系统 的 数据 库 进行 初始 化 ， 在 数据 库 里 建立 相关 的 数据 表 。 

€ gerapy createsuperuser 是 在 Gerapy EA 统 , 创 建 超级 管理 员 。 

9 gerapy runserver 是 运行 Gerapy 系统 。 

在 当前 的 CMD 窗口 下 创建 新 的 Gerapy 系统 ,由 于 CMD 窗口 的 路 径 是 指 同文 件 来 MyGerapy， 
因此 新 建 的 Gerapy 系统 将 会 在 文件 夹 MyGerapy 里 生成 ， 如 图 26-26 所 示 。 
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MyGerapy 


|. gerapy 
图 26-26 ”新建 Gerapy 系统 


Gerapy 系统 创建 后 ， 下 一 步 是 对 系统 的 数据 库 进行 初始 化 。 将 CMD 窗口 的 路 径 切 换 到 文件 
3€ gerapy 并 输入 gerapy migrate, Æ CMD 窗口 可 以 看 到 数据 表 的 创建 信息 ， 并 且 在 文件 夹 gerapy 
里 生成 数据 库 文件 db.sqlite3， 如 图 26-27 所 示 


软件 (D) > MyGerapy > gerapy 


E- CAWiIn dows\system 32Xcmd.exe 


| l D:MyGerapyNgerapy^gerapy migrate 
Li paso r Jperations to perform: 
| db.sqlite3 | Apply all migrations: admin, auth, contenttypes, core, 
Ruming migrations: 
Applyingz contenttypes. 0001 initial... OE 
Applying auth. 000] initial... UK 
Applying admin.(001 initial... ÜK 
Applyingz admin. 0002 logentry remove auto add... UE 
Applying admin. 005 logzentry add action flag choices... 
Applying contenttypes. 0002 remove content type name... 
Applying auth. 0002 alter permission name max lenzth... 
Applying auth. UUUas alter user email max length... OK 
Applying auth. 00 Pu alter user username opts.. OK 
Applying auth. 0005 alter user last lozin m ali. zc UE 
Applying auth. 0006 require contenttypes 0002... oE 
Applying auth. UUU alter validators ETE error messa: 
Applying auth. 0008 alter user username max lenzth... 
Applying auth. O00 9 alter user 1 ast mn ame max 1 ength... 
Applying core.000] initial... UK 
Applying core. 0002 auto 20180119 1210... OK 
Applying core. 0003 auto 20180123 2304... OK 
Ap plying core. 004 auto ZzülsO0124& Q032... Ok 


Àpplving sessions. 0001 initial... OK 


图 26-27 初始 化 数据 库 


完成 上 述 操作 后 , 束 可 以 运行 Gerapy 系统 ,在 CMD 窗口 下 输入 gerapy runserver, 并 保证 CMD 
窗口 的 路 径 是 指向 文件 夹 gerapy， 如 图 26-28 所 示 。 


D:XMyGerapyMgerapy^zerapy runserver 
Performing system checks... 


identified no 1SSUBS 


11:21:45 
Djanzo version 2.1.2, using setting 
dey — server at http: Jj 


ver with CIRL-DREAR. 


图 26-28 ”运行 Gerapy 系统 


系统 运行 后 ， 在 浏览 器 上 访问 http://127.0.0.1:8000/ 即 可 打开 系统 首页 ， 将 系统 语言 切换 成 中 
文 模式 ， 如 图 26-29 所 示 。 
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€ Q © 127.0.0.1:8000/#/home 


GERAPY 


mu -]i-- 


O0 MAHER 


Copyright © 2018 Gerapy All Rights Reserved 


图 26-29 系统 首页 


衣 册 的 右 侧 是 显示 当前 系统 所 记录 的 主机 和 项 目 信 息 ， 这 是 一 个 简单 的 统计 功能 ;而 在 首页 
的 左 侧 分 为 主机 管理 和 项 目 管理 ， 这 是 管理 系统 的 主机 和 项 目 。 

主机 管理 是 在 系统 里 添加 Scrapyd 服务 , 比如 现 有 多 人 台 主 机 并 且 每 人 台 主 机 已 安装 Scrapyd 服务 ， 
为 了 统一 管理 这 些 主 机 ， 可 以 在 Gerapy 系统 里 添加 主机 信息 ， 实 现 所 有 Scrapyd 服务 的 调度 和 管 
理 。 在 主机 管理 页 面 里 ， 单 击 创建 按钮 即 可 添加 主机 信息 ， 如 图 26-30 所 示 。 


€ > Q © 127.0.0.1:8000/#/client 


© GERAPY 


图 26-30 ”添加 主机 信息 


在 主机 创建 页 面 里 ， 分 别 输入 主机 的 名 称 、IP 和 端口 即 可 。 主 机 名 称 可 以 自行 命名 ; P 是 指 
Scrapyd 服务 所 在 主机 的 IP 地 址 ; im Ots Scrapyd 服务 所 占用 的 端口 , 一般 默 认 值 为 6800。 以 本 
地 的 Scrapyd 服务 为 例 ， 创 建 主机 信息 如 图 26-31 所 示 。 


“名 称 | MyScrapyd 


127.0.0.1 


图 26-31 创建 主机 
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单 击 “创建 ”按钮 后 ，Gerapy 系统 会 将 相关 信息 保存 到 数据 库 文 件 db.sqlite3 中 。 返 回 到 主机 
管理 页 面 ， 可 以 看 到 了 刚 创 建 的 主机 显示 在 主机 管理 页 面 ， 主 机 状态 显示 为 错误 ， 这 说 明 当 前 主机 疝 
未 开启 Scrapyd 服务 。 当 我 们 在 本 地 开局 Scrapyd 服务 ， 并 且 刷 新 主机 管理 页 面 后 ， 主 机 状态 显示 
为 正常 ， 如 图 26-32 所 示 。 


已 开启 Serapyd 服 务 


名 称 


MyScrapyd 127.0.0.1 


问 未 开局 Scrapyd 服 务 
名 称 


MyScrapyd 127.0.0.1 


图 26-32 主机 状态 


下 一 步 在 项 目 管理 中 创建 项 目 信 息 ， 使 Serapy 项 目 与 主机 管理 的 Scrapyd 服务 相互 结合 ， 实 
现 Scrapy WH RWE. 在 Gerapy 系统 所 在 文件 炎 gerapy 的 projects 文件 炎 里 放置 项 目 douban, M H 
douban 无 需 做 打包 处 理 ， 因 为 Gerapy 系统 已 提供 项 目 打 包 功 能 。 放 置 项 目 douban 后 ， 再 次 刷新 
项 目 管理 页 面 ， 可 以 看 到 项 目 douban 信息 ， 如 图 26-33 所 示 。 


名 称 打包 时 间 


douban 


图 26-33 JW H douban 信息 


从 项 目 常理 页 面 看 到 ， 项 目 douban 的 打包 和 可 配置 都 处 于 一 个 尚未 激活 状态 。 我 们 单 击 “ 部 
普 ” 控 钮 ， 进 入 项 目 部 费 页 面 ， 输 入 捅 述 内 容 并 单 击 “打包 ”按钮 即 可 和 完成 项 目 打包 处 理 ， 如 图 
26-34 所 示 。 

项 目 打包 成 功 后 ， 单 击 图 26-34 的 “部 普 ” 按 钮 即 可 将 项 目 douban 部 署 到 名 为 MyScrapyd 的 
Scrapyd 服务 。 如 条 主机 管理 多 个 Scrapyd 服务 ， 在 项 目 部 普 页 面 也 会 显示 相应 的 Scrapyd 服务 ， 
这 样 可 将 一 个 项 目 部 署 到 多 台 主 机 ， 如 图 26-35 所 示 。 


MyScrapy 
d 


HR douban 


打包 名称 未 打包 


打包 时 间 未 打包 


newSpide 
r 

MyScrapy 
d 


HR douban 


打包 名 称 douban-1.0-py3.7.egg 


打包 时 间 2018-11-30 15:24:03 
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IP "m 部 署 时 间 


2018-11-29 15:5 
9:43 


127.0.0.1 


名 称 douban 


*“ 摘 述 | doubanSpider 


oa 


图 26-34 项目 打包 处 理 


IP 部 署 时 间 
2018-11-30 15:2 

5:53 
2018-11-30 15:2 

5:54 


127.0.0.1 


127.0.0.1 doubansSpider 


HFR douban 


*jd&vk | doubanSpider 


图 26-35 MHRA 
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WRH douban 的 功能 发 生 修 改 ， 需 要 在 项 目 部 普 页 面 将 项 目 重 新 打包 人 处理， 并 且 还 要 重新 


部 晋 到 相应 的 Scrapyd 服务 。 


项 目 打包 和 部 署 已 执行 完毕 ， 最 后 在 Gerapy 系统 上 运行 项 目 。 单 击 主机 管理 ， 进 入 主机 管理 
页 面 并 单 击 名 为 MyScrapyd 的 调度 按钮 ， 如 图 26-36 所 示 。 


名 称 


newspider 


MyScrapyd 


IP 


12 7.0.0.1 


12 7.0.0.1 


在 Scrapyd 服务 页 面 里 , 隶属 于 


[^ -二 


= HI 


图 26-36 主机 管理 页 面 


Scrapyd 服务 的 所 有 Serapy 项 目 都 以 列表 的 形式 呈现 。 当 


运行 项 目 douban 的 Spider 程序 时 ， 页 面 就 会 生成 程序 的 运行 状态 和 运行 信息 ， 如 图 26-37 所 示 。 
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名 称 


Movie 


» A ERER Movie 。 (5 e1a9de14$47611e8b89400232417b942 


v^ ERS: Movie —4,Íf26eb3918cfí47611e8b79a002324f7b942 © 开始 时 间 : 2018-11-30 16:03 © NİB: 2018-11-30 16:03 


óc IHE tèta € a] Eu € ct S6 oieri. "8 »TER D, a — R6 yéz- &PIIE Ta € cri A S € Q8€,', 
'mowisId : '20438964']]] 


图 26-37 运行 Spider 程序 


此 外 ，Gerapy 系统 还 可 以 对 主机 和 项 目 进行 编辑 和 删除 操作 ， 详 细 的 操作 过 程 束 不 再 一 一 讲 
述 ， 读 者 可 根据 实际 需求 目 行 配置 。 


26.3 本 但 小 结 


爬虫 的 上 线 部 赣 是 为 了 让 使 用 者 方便 使 用 爬虫 程序 ， 本 章 分 别 讲述 了 非 框架 式 谎 虫 和 框架 陈 
JE m BEES. 

AERE ZR UE R E NE RET EH HERAF, (LEES urlib. requests 和 BeautifulSoup 
TARERE, WEN USE HEAR, W Scrapy 和 PySpider 等 。 非 框架 式 
J& rh Bg AE 7 SX P Br: 

(1) EJER Id. EHA B mt Rae TER. 

(2) 制定 任务 计划 程序 ， 利 用 计算 机 的 任务 管理 器 来 控制 付 虫 程序 的 运行 时 间 ， 无 须 使 用 者 
操作 ， 实 现 目 动 化 爬虫。 

(3) 创建 服务 程序 ， 利 用 计算 机 的 服务 程序 来 运行 肘 虫 程序 ， 只 要 计算 机 没有 关机 ， 疏 虫 每 
时 每 刻 都 在 运行 。 

MEAS TJER x18 Hl Scrapy 或 PySpider 等 肘 虫 框 以 开发 的 爬虫 程序 ， 这 种 爬虫 程序 有 上 自身 的 
运行 方式 。 对 于 这 类 疏 虫 只 能 通过 特定 的 工具 部 署 ， 以 Scrapy 框架 为 例 ， 部 晋 工 具有 Scrapyd 和 
Gerapy， 两 者 说 明 如 下 : 

(1) Scrapyd ZÉ — RH FEH Scrapy 爬虫 的 部 团 和 运行 的 服务 ， 由 Scrapy 的 开发 者 开发 ， 它 
是 通过 API 接口 来 部 署 或 者 控制 Serapy 项 目 ， 可 以 党 理 多 个 项 目 ， 并 且 每 个 项 目 还 可 以 上 传 多 个 
版 本 ,但 只 有 最 新 的 版 本 会 被 使 用 。 

(2) Gerapy Æ- 3X 7) NERE IER, CE Scrapyd 和 Scrapyd-Client 的 基础 上 进行 封装 ， 
让 Scrapy 项 目 管 理 实现 可 视 化 操作 。 简 单 来 说 ，Gerapy 是 一 个 使 用 Django 开发 的 管理 系统 ， 它 可 
以 部 普 和 管理 Scrapy 项 目 。 


I IE FR BU REECA 75 R 


27.14 dE WT) ed EN 


REE- E EIE mJT Ad WAKE. BIS SI A eS gEBIT DU. ERFAR 
FEP, ERETRIA, 但 项 目 上 线 就 会 出 现 各 种 问题 ， 比 如 HTTP R E I S js JA 
从 咽 应 内 容 息 取 目 标 数据 等 ,这 种 “程序 开 友 正 肖 ， 上 线 出 寞 第 ”的 情况 是 因为 网 站 设置 了 反扑 虫 
HLHI 

A [a] 258782 E05] pod s EDLE AAE, H — ^P Pod xh E 8 EHLE i ARE AITA AA 
据 传 办 方式 和 请 求 方式 等 多 个 方面 来 评 佑 。 下 面 列 出 第 用 的 反扑 虫 技术 。 


(1) 用 户 请 求 的 Headers. 
(20 用 户 操 作 网 站 行为 。 
(3) 网 站 目录 数据 加 载 方式 。 
CA). 数据 加 密 。 

(5) 验证 码 识别 。 


网 站 设置 反 故 机 制 不 代表 不 能 压 取 数据 ， 正 如 “你 有 张 恨 计 ， 我 有 过 墙 梯 ”， 每 种 反 疏 虫 机 
制 都 有 对 应 的 解决 方案 。 


1. 基于 用 户 请 求 的 Headers 


从 用 户 请 求 的 Headers IE rui scis WEN SUR RE. (RÀ uz xp Headers 的 User-Agent 
进行 检测 ， 还 有 一 部 分 网 站 会 对 Referer 进行 检测 (一 些 资源 网 站 的 防盗 链 就 是 检测 Referer) 。 如 
果 遇 到 了 这 类 反 故 虫 机 制 ， 可 以 在 爬虫 代码 中 添加 Headers WRA, 将 浏览 器 的 请 求 信息 以 字典 的 
RRRA SASER R k: 对 于 检测 Headers 的 反扑 虫 , 在 朴 虫 友 送 请 求 中 修改 或 者 添加 Headers 
就 能 很 好 地 解决 。 
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2. 基于 用 户 操 作 网 站 的 行为 

还 有 一 部 分 网 站 是 通过 检测 用 户 行 为 来 判断 用 户 行 为 是 否 合 规 ， 例 如 同一 IP 短 时 间 内 多 次 访 
问 同一 页 面 或 者 同一 账户 短 时 间 内 多 次 进行 相同 操作 。 网 站 服务 器 会 根据 已 设 定 的 判断 条 件 判 断 访 
问 间 隅 是 否 合理 ， 从 而 达到 检测 用 户 行 为 是 否 合理 。 

过 到 用 户 行为 判断 这 种 情况 ， 可 使 用 IP RE, P 可 以 在 IP 代理 平台 上 通过 API 接口 获取 ， 
每 请 求 几 次 更 换 一 个 了 下， 这 样 就 能 很 容易 地 纪 过 第 一 种 反扑 虫 。 

还 有 一 种 解决 方案 是 在 每 次 请 求 间 隅 几 秒 后 再 发送 下 一 次 请 求 。 只 需 在 代码 里 面 加 一 个 延 时 
功能 就 可 以 简单 实现 ， 有 些 有 逻辑 漏洞 的 网 站 可 以 通过 请 求 几 次 、 退 出 登录 、 重 新 登录 、 继 续 请 求 
来 统 过 同一 账号 短 时 间 内 不 能 多 次 进行 相同 请 求 的 限制 。 

3. 基于 网 站 目录 数据 加 载 

上 述 几 种 情况 大 多 都 出 现在 静态 页 面 ， 还 有 一 部 分 网 站 是 由 Ajax 通过 访问 接口 的 方式 生成 数 
据 加 载 到 网 页 。 遇 到 这 样 的 情况 ， 首 先 分 析 网 站 设计 ， 找 到 Ajax 请 求 ， 分 析 有 具体 的 请 求 参 数 和 响 
应 的 数据 结构 及 其 含义 ， 在 怜 虫 中 模拟 Ajax 请 求 ， 就 能 获取 所 需 数据 。 

4. 基于 数据 加 密 

在 很 多 情况 下 没有 想象 中 那么 完美 ， 能 够 直接 模拟 Ajax 请 求 获取 数据 固然 是 极 好 ， 但 部 分 网 
站 会 把 请 求 的 参数 加 密 处 理 。 这 种 情况 可 先 找到 加 密 代码 , 加 密 代码 主要 是 使 用 JavaScript 实现 的 ， 
分 析 代 码 的 加 蜜 方式 ， 然 后 在 爬虫 代码 中 模拟 其 加 密 处 理 ， 再 发 送 请 求 。 这 是 最 优 解决 方案 ， 但 花 
费时 间 较 多 ， 难 度 相 对 较 大 。 

男 一 种 解决 方案 是 使 用 Selenium+PhantomJS 框架 《〈 目 动 化 测试 技术 ) ， 调 用 浏览 器 内 核 ， 利 
用 Selenium 模拟 人 为 操作 网 页 并 触发 页 面 中 的 JS 脚本 ， 完 整地 实现 自动 化 操作 网 页 ， 数 据 是 从 网 
页 上 目 动 获取 的 。 这 套 框架 几乎 能 绕 过 大 多 数 反 有 息 虫 ， 因 为 Phantom]JS 是 一 个 没有 界面 的 浏览 占 。 
Selenium+PhantomJS 能 解雇 很 多 事情 ， 而 且 用 途 很 大 。 但 是 在 爬虫 中 ， 不 到 万 不 得 已 的 地 步 ， 一 
般 不 支持 使 用 这 种 方式 ， 因 为 这 种 方式 已 经 是 目 动 化 测试 的 范畴 ， 有 点 偏离 了 和 扑 虫 开发 。 

5. 基于 验证 码 识 别 

最 有 效 的 反 有 息 虫 技术 就 是 验证 码 ， 目 前 对 复 林 的 验证 人 码 还 没有 做 到 很 好 地 识别 验证 ， 只 能 通 
过 第 三 方 平台 人 处理 或 者 OCR 技术 识别 。 当 然 ， 不 是 说 有 验证 码 藉 不 能 做 爬虫 ， 只 是 目前 在 验证 人 码 
的 问题 上 还 没有 一 个 很 完美 的 解决 方案 。 


27.2 ”基于 验证 码 的 反 息 虫 


验证 码 是 反扑 虫 机 制 里 面 最 闸 用 的 手段 之 一 ,在 本 书 第 12 半 已 对 验证 码 识 别 做 了 详细 的 讲述 ， 
在 本 节 中 ， 我 们 来 总 结 爬 虫 中 出 现 验证 但 的 情况 以 及 处 理 方式 。 
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27.2.1 ”验证 码 出 现 的 情况 


1. 登录 页 面 设 有 验证 码 识 别 
登录 页 面 是 验证 公 出 现 频率 最 噩 的 忠 面 ， 它 个 仪 能 提 遍 用 户 的 安全 性 ， 而 且 还 起 到 反扑 虫 作 
用 。 以 B 站 为 例 ， 单 击 用 户 登 录 束 会 出 现 市 滑动 验证 但 的 登录 页 面 ， 如 图 27-1 所 示 。 


请 输入 手机 号 /邮箱 


按 住 左边 滑 块 , 拖 动 完成 上 方 样 图 、 Ó 


图 27-1 带 验 证 码 的 登录 页 面 
2. 特殊 请 求 设置 验证 码 


在 网 页 里 对 某 些 关键 操作 设置 验证 码 ， 这 种 验证 码 出 现 方式 虽然 很 影响 用 户 体验 ， 但 可 以 很 
好 地 防止 数据 泄漏 。 主 要 应 用 在 政府 网 站 或 商品 抢购 活动 等 ， 如 查询 企业 信用 信息 
(www.gsxt.gov.cn/index.html) , 输入 企业 名 称 并 单 击 查 询 按 钮 就 会 出 现 验 证 码 ， 如 图 27-2 所 示 。 


请 按 语 序 依 次 点 击 下 图 文字 


图 27-2 ”特殊 请 求 设置 验证 码 
3. 网络 环 境 导致 验证 码 出 现 


网 络 环境 的 不 稳定 因素 主要 是 本 地 网 络 的 TP 地 址 已 被 网 站 服务 器 列 入 异常 名 单 。 列 入 异常 名 
单 的 方式 有 很 多 ， 比 如 访问 过 于 频繁 ， 在 20.4 节 中 已 有 介绍 ， 如 果 微 博 息 取 的 间隔 时 间 太 短 就 会 
出 现 验证 码 ; 再 比如 代理 IP 的 安全 性 也 会 导致 验证 码 出 现 ， 网 络 上 大 多 数 的 免费 代理 IP 都 是 不 安 
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全 的 ， 若 使 用 这 些 免费 代理 卫 ， 很 容易 遭 到 反 爬 虫 拦截 。 


27.2.2 RHR 


对 于 上 述 验 证 码 ， 这 里 总 结 归 纳 几 个 可 行 的 解决 方案 ， 说 明 如 下 : 
. 使 用 OCR 技术 识 列 


目前 OCR 技术 已 逐步 趋同 成 熟 ， 并 且 扩 展 性 强 ， 能 满足 开 友 人员 的 二 次 开 肥 ， 但 开 上 及 难度 较 
大 ， 厂 没有 经 过 二 次 开发 或 验证 个 训练 ， 仅 菲 OCR 目 身 的 识别 能 力 ， 识 别 准 确 率 会 非常 低 。 


2. 使 用 第 三 万 平台 API ORA 


目前 第 三 方 平台 已 经 可 以 识别 各 种 类 型 的 验证 码 ， 而 且 准 确 紊 高 和 啊 应 速度 快 ， 但 每 次 使 用 
南 要 收取 相应 的 费用 。 


3. 人 为 识别 验证 码 


有 息 虫 程序 在 运行 过 程 中 ， 硅 出现 验 证 码 ， 会 上 先 下 载 验 证 码 图 片 ， 并 且 使 用 input 函数 使 程序 
处 于 等 竺 状态， 然后 人 为 识别 验证 码 ， 把 验证 码 内 容 通 过 input 函数 传递 到 程序 里 ， 从 而 解决 验证 
码 识别 问题 。 ERUIT e 证 码 的 生成 原理 ， 第 19 章 的 12306 网 站 用 户 登 录 就 是 使 
用 的 此 方法 解决 验证 码 识 别 问 题 


4. 使 用 Selenium 控制 程序 实现 识别 验证 码 


如 果 页 面 出 现 验证 码 ， 使 用 Selenium 模拟 打开 浏览 器 访 问 页 面 ， 并 且 故 虫 程序 必须 要 处 于 等 
符 状态 ， 然 后 人 为 在 浏览 右上 完成 验证 码 识别 并 退出 爬虫 程序 的 等 待 状态 ， 让 程序 获取 浏览 露 的 
Cookies 信息 并 往 下 执行 。 由 于 浏览 器 已 完成 验证 码 识别 , 因此 在 后 续 的 HTTP 请 求 中 加 入 Cookies 
即 可 解决 验证 码 问 题 。 这 种 方法 的 代码 格式 相对 固定 ， 如 下 所 示 : 


from selenium import webdriver 
# 需要 安装 pywin32 模块 
import win32api, win32con 
driver = webdriver.cChromert) 
driver.get("https://www.baidu.com/") 
+ ÆR windows 提示 框 ， 让 程序 处 于 等 待 状态 
E 当 点 击 提示 框 的 确定 按钮 ， 程 序 即 可 往 下 执行 
win32api.MessageBox(0, "请 识别 验证 码 ", "提示 ", win32con .MB OK) 
# RR Wash Cookies 
cookie = driver.get cookies () 
driver.quit() 
# Cookies 格式 化 
cookie dict — I} 
for 1i in cookie: 
cookie dicli name ITI —o31 vare] 


5. 从 浏览 颖 复制 Cookies 并 与 入 程序 


EREN, REXEÉX—UUBSGAKADEHPXGeRS REMEH Xi g AP T Es 
Was HJ] Side. 无论 关 闭 浏览 占 还 是 重 局 计算 机 ， 当 再 次 访问 网 站 的 时 候 ， Pod hd hz R EDO. 
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录 的 用 户 信 息 。 对 于 这 类 网 站 ， 它 的 Cookies 永 信 有效 ， 可 以 从 开发 者 工具 里 复制 Cookies 信息 并 
写 入 程序 ,程序 每 次 发 送 请 求 只 需 设 置 Cookies 即 可 跳 过 用 户 登 录 ， 从 而 避 开 用 户 登 录 出 现 验证 三 
识别 的 问题 。 这 种 方法 只 需 将 Cookies 转化 成 字典 格式 即 可 使 用 ， 如 下 上 所 示 : 
# 从 浏览 器 的 开发 者 工具 获取 Cookies 
cookie = 'bid-GYJXyBO0Wc; user id-dc6354c' 
# Cookies 格式 化 
Cokie dict — I] 
# 将 Cookies 转换 字典 格式 
for 1 in cookie.split(';"): 
key = 1.split ("=") TU] 
value = 1.split ("=") [1] 
cookie dict[key] — value 
print(cookre dict) 


27.3 ”基于 请 求 参 数 的 反 息 虫 


爬虫 是 通过 HTTP 请 求 来 获取 目标 数据 的 ， 而 请 求 参 数 是 HTTP 请 求 必 不 可 少 的 构成 部 分 ， 
因此 很 多 反扑 虫 机 制 部 设置 了 请 求 参数 。 


27.3.1 请 求 参 数 的 数据 来 产 


结合 本 书 的 实战 项 目 ， 这 里 我 们 总 结 出 请 求 参数 的 数据 来 源 方式 。 

1. 参数 值 为 固定 可 选 值 

这 类 请 求 参 数 是 很 容易 辨认 的 ， 同 一 个 请 求 ， 其 请 求 参数 可 能 是 固定 不 变 或 者 按 一 定 的 规律 
变化 。 比 如 猫眼 电影 的 Top100 排行 榜 Chttp://maoyan.com/board/4?offset-0) ， 请 求 参数 offset 以 0、 
10 和 20 的 规律 递增 ， 分 别 代表 第 1 页 、 第 2 页 和 第 3 页 。 

2. 人 参数 值 来 目 其 他 请 求 的 啊 应 内 容 

如 有 果 参 数值 来 日 其 他 请 求 的 啊 应 内 容 ， 需 要 将 参数 值 在 各 个 请 求 的 啊 应 内 容 里 盒 找 。 比 如 请 
求 A 的 请 求 参 数 是 从 请 求 B 的 啊 应 内 容 里 获取 ,而 请 求 B 的 请 求 参 数 是 从 请 求 C 的 啊 应 内 容 获 取 ， 
这 三 个 请 求 吏 形成 一 种 递 进 关系 。 硅 要 在 爬虫 里 获取 请 求 A 的 啊 应 内 容 ， 自 先 获取 请 求 C 的 啊 应 
内 容 ， 得 出 请 求 B 的 请 求 参 数 ， 然 后 对 请 求 B RIX HTTP 请 求 ， 从 啊 应 内 容 获 取 请 求 A 的 请 求 参 
数 ， 最 后 才能 获取 请 求 A 的 啊 应 内 容 。 这 种 方式 古 有 息 虫 开发 中 最 为 第 见 的 ， 如 12306 用 户 登 录 、 
QQ 首 乐 的 歌曲 下 载 等 。 

3. 参数 值 经 过 JS 处 理 

JS 处 理 方式 有 加 密 、 混 请 或 数据 转换 等 ， 这 是 一 种 有 效 的 反 诬 虫 机 制 ， 同 时 能 提 融 用户 账 号 
的 安全 性 。 第 20 章 的 微 博 用 户 登 录 功 能 就 涉及 到 JS 加密， 把 用 户 账 号 和 密码 都 进行 加 密 处 理 ， 并 
且 加 密 的 JS 代码 经 过 压缩 处 理 ， 还 有 一 些 网 站 会 对 JS 代码 进行 混 铺 处 理 ， 让 压 虫 开 有 者 难以 分 析 
JS 处 理 过 程 ， 这 一 系列 的 防御 机 制 为 疏 虫 开 有 市 来 一 定 的 难度 ， 从 而 起 到 反 疏 虫 的 作用 。 
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4. 参数 值 为 特殊 值 

判断 参数 是 否 为 特殊 值 ， 需 要 判断 参数 值 的 数据 结构 。 比 如 参数 值 由 一 串 数 字 组 成 并 且 以 15 
开头 ， 这 串 数 字 可 能 是 一 个 时 间 惟 ， 以 时 间 惟 作为 请 求 参数 ， 代 表 该 请 求 具 有 时 效 性 ， 网 站 会 根据 
时 间 稚 的 时 间 和 实际 时 间 进 行 对 比 ， 夺 时 间 稚 的 时 间 符 合 要 求 ,说 明 当 前 请 求 合法 ,反之 则 判 为 弄 
BK. 

如 朵 参数 值 是 一 串 不 规则 的 数据 并 且 无 法 在 其 他 请 求 的 啊 应 内 容 里 获取 ， 很 可 能 它 是 来 目 
Cookies 信息 ， 第 18.2 市 的 QQ 歌曲 下 载 束 是 使 用 Cookies 信息 作为 请 求 参 数 的 。 

综 上 所 述 ， 请 求 参数 的 数据 来 源 主 要 有 : 参数 值 为 回 定 可 选 值 、 参 数值 来 目 其 他 请 求 的 啊 应 
内 容 、 参 数值 经 过 JS 处 理 以 及 参数 值 为 特殊 值 。 


27.3.2 请求 参数 的 查找 


根据 请 求 参 数 的 类 型 ， 可 以 总 结 出 请 求 参 数 的 查找 方法 ， 分 述 如 下 。 
1. 查找 请 求 参 数 的 变化 规律 
僵 找 请 求 参 数 的 变化 规律 是 分 析 请 求 参 数 最 音 用 的 手段 ， 它 能 通过 变化 规律 找 出 请 求 参 数 的 
含义 与 作用 。 查 找 变 化 规律 需要 分 析 同 一 个 请 求 参 数 的 不 同 参 数值 ， 如 猫眼 电影 Top100 排行 榜 的 
请 求 参 数 offset， 当 单 击 网 页 下 方 的 页 数 时 ， 请 求 参数 offset 随 之 变化 ， 其 规律 是 以 0、10、20…… 
依次 递增 ， 分别 代表 第 1 页、 第 2 页、 第 3 页 …… 如 图 27-3 所 示 。 
G9 TOP100 榜 - 猫眼 电影 -一 网 条 X + 


c ŒC © 不 安全 | maoyan.com/board/4?offset=0 


TOP100 榜 - 猫眼 电影 -一 网 条 X 十 


e 
€ Q © 不 安全 | maoyan.com/board/4?offset- 10 
e 


TOP100 榜 - 猫眼 电影 -一 网 条 X + 


€ C 不 安全 | maoyan.com/board/4?offset- 20 
图 27-3 请求 参 数 变化 规律 

除了 分 析 请 求 参数 的 参数 值 变 化 之 外 , 还 可 以 对 请 求 参数 的 命名 进行 分 析 。 比 如 offset 的 中 文 
翻译 为 偏离 的 ， 其 中 文 意思 代表 排行 榜 电 影 的 偏离 量 ， 若 将 100 部 电影 以 10 为 单位 进行 划分 ， 共 
有 100/10=10 个 单位 ， 单 位 总 数 分 别 与 网 页 的 页 数 相 互 对 应 ， 每 个 单位 数 为 10 代表 了 每 页 有 10 部 

E. 

2. 从 其 他 请 求 信息 查找 

从 其 他 请 求 信息 查找 请 求 参 数 也 是 分 析 请 求 参 数 的 常用 手段 ， 查 找 方法 只 需 将 参数 值 在 所 有 
请 求 的 啊 应 内 容 里 依次 查找 即 可 。 但 有 时 候 会 出 现 特殊 情况 ， 请 求 参 数 是 来 自前 面 的 请 求 信 息 ， 如 
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12306 的 预订 车 票 请 求 ， 该 请 求 参 数 train date 是 来 自 车 次 信息 请 求 ， 而 预订 车 票 请 求 和 车 次 信息 
请 求 是 在 不 同 的 页 和 面 , 即 两 者 不 是 同一 页 面 生 成 的 请 求 信 息 , 这 种 跨 页 面 的 数据 传递 也 能 起 到 反扑 
虫 的 作用 。 
对 于 请 求 参 数 的 路 页 面 传递 问题 ， 如 果 当 前 所 有 请 求 都 无 法 找到 请 求 参 数 ， 可 以 符 试 从 上 一 
页 面 的 请 求 信息 里 租 找 ， 得 找 过 程 中 需要 对 每 个 数据 的 命名 和 结构 进行 分 机 和 对 比 ， 总 的 来 说 ， 请 
求 参数 的 得 找 需要 了 耐性 和 细心 分 析 。 
3. 实现 JS 代码 处 理 过 程 
请 求 参 数 经 过 JS 处 理 是 反 有 息 虫 里 最 有 效 的 手段 之 一 , 因为 破解 并 还 原 JS 处 理 过 程 是 相当 耗 时 
的 ， 从 而 延长 候 虫 开发 周期 。 破 解 并 还 原 JS 处 理 有 两 种 方法 ， 说 明 如 下 : 
直接 解读 JS 代码 ， 在 爬虫 里 还 原 JS 处 理 并 生成 请 求 参 数 ， 这 种 方法 非常 考验 爬虫 工程 师 的 
JS 熟练 程度 ， 第 20 章 的 微 博 登录 就 是 直接 解读 并 还 原 JS 处 理 。 
利用 Python 的 JS 运行 库 模 拟 运 行 JS 代码 ， 这 种 方法 只 需 在 掌握 JS 代码 的 输入 和 输出 即 可 ， 
无 震 解 谈 具 体 的 处 理 过 程 。Python 模拟 运行 JS 的 库 有 PyExecJS 和 pyv8， 以 PyExecJS 为 例 ， 在 
CMD 窗口 输入 安装 指令 : pip install PyExecJS. JS 代码 是 以 字符 串 的 形式 表示 , 然后 调用 PyExecJS 
库 的 方法 即 可 运行 JS 代码 ， 如 下 所 示 : 
import execjs 
def exec J]s(x, y): 
# 编译 Js 代码 
ctx = execj]s.compile(""" 
function add(x, y) 1{ 
POLBEEID x + y? 
pom ") 
# 执行 代码 
return ctx.calri"adgg' AX y) 
print(icxec jall, ZN 
上 述 代码 简单 调用 了 IS 的 add 函数 ， 函数 参数 x、y 是 在 调用 的 过 程 中 以 变量 的 形式 传 入 。 在 
有 息 虫 开发 过 程 中 ， 当 遇 到 JS 处 理 的 请 求 参 数 时 ， 只 需 将 相应 的 JS 代码 以 字符 串 的 形式 写 入 程序 ， 
然后 使 用 PyExecJS 库 即 可 得 出 处 理 后 的 请 求 参数 。 
4. 利用 浏览 器 动态 加 载 
如 果 请 求 参数 确实 过 于 复杂 而 且 难 以 实现 ， 还 可 以 使 用 Requests-HTML、Selenium 或 Splash 
等 模块 实现 浏览 圳 动态 加 载 。 只 需 将 爬 取 的 网 址 传递 给 浏览 右 即 可 疏 取 目标 数据 , 如果 涉及 到 表单 
提交 ， 可 以 使 用 Selenium 或 Splash 模拟 操作 浏览 右 ， 输 入 表单 数据 并 单 击 提交 按钮 即 可 实现 。 
虽然 这 种 方法 可 以 轻松 实现 数据 肘 取 ， 但 在 浏 虎 帮 加 载 网 页 的 时 候 ， 它 会 目 动 加 载 网 页 的 全 
部 请 求 信 息 ， 因 此 访问 速度 比 单个 HTTP 请 求 的 访问 速度 要 慢 。 


27.4 基于 请 求 头 的 反 疏 虫 


在 请 求 头 里 设置 反 谍 虫 机 制 也 是 常见 的 手段 之 一 , 第 2.2 节 已 对 请 求 头 做 了 详细 的 介绍 ,本 节 
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根据 实战 项 目 来 总 结 一 下 请 求 涉 的 反扑 忠 机 制 。 

1. 检测 请 求 头 的 固定 属性 

固定 属性 是 指 请 求 尖 的 属性 具有 固定 值 或 者 按 一 定 的 规律 变化 ， 如 User-Agent, Connection, 
Host 或 Referer 等 基本 属性 ， 这 些 属性 在 每 个 请 求 信息 里 都 能 轻易 找到 ， 并 且 属 性 值 相对 固定 。 

在 实战 项 目 23.3 里 ， 疏 取 豆 辩 电影 评论 必须 添加 请 求 头 的 User-Agent 属性 ， 否 则 在 爬 取 过 
程 中 就 会 所 示 网 页 403 错误 信息 ， 这 说 明 网 站 服务 器 对 请 求 头 属性 User-Agent 设置 检测 功能 。 

如 条 爬 虫 里 加 入 蜡 步 并 及 功 能 ， 在 同一 时 间 内 发送 多 条 HTTP 请 求 并 且 出 现 了 异常 信息 ， 且 
提示 无 法 建立 新 的 请 求 连接 (failed to establish a new connection?) ， 这 是 请 求 队 列 已 完满 HTTP 请 
求 的 原因 ， 对 此 需 在 每 个 请 求 里 设置 请 求 头 属性 Connection， 属 性 值 为 close， 这 样 可 将 已 完成 的 
HTTP 请 求 关闭 释放 。 

请 求 头 属性 Host 是 根据 请 求 地 址 URL 的 变化 而 变化 。 一 般 情 况 下 ，Host 的 属性 值 与 URL 的 
域名 信息 一 致 ， 假 如 请 求 头 的 Host 属性 值 与 URL 的 域名 不 相符 ， 那么 该 请 求 可 能 无 法 获取 正确 的 
吧 应 内 容 。 这 种 反 朴 时 机 制 划 用 于 分 并 性 的 网 站 ， 如 于 团 或 链 家 等 ， 此 网 站 是 以 城市 进行 分 类 ， 不 
同 的 城市 有 不 同 的 域名 ， 如 图 27-4 所 示 。 


E3 广州 美国 网 -广州 美食 酒店 NES x + 


QC © https//gz.meituan.com 


上 海 美国 网 -上 海 美食 酒店 旅游 X + 


所 CQ © https;//sh.meituan.com 


图 27-4 域名 信息 


属性 Referer 说 明 当 前 请 求 来 目 于 哪个 页 面 的 URL, 反 爬虫 机 制 引 入 属性 Referer 是 利用 HTTP 
防盗 链 技术 实现 。 在 HTTP 协议 中 ， 当 一 个 网 页 跳 到 另 一 个 网 页 时 ，HITP 的 请 求 头 都 会 市 有 属性 
Referer, 网 站 服务 器 通过 检测 属性 Referer 是 否 在 服务 器 的 域名 名 单 , 如 果 Referer 不 在 域名 名 单 中 ， 
当前 请 求 会 被 判 为 非法 请 求 ， 无 法 获取 正确 的 啊 应 内 容 。 

此 外 ， 请 求 涉 还 有 很 多 特殊 日 固定 的 属性 ， 如 Upgrade-Insecure-Requests 或 X-Requested-With 
等 ， 其 特殊 性 在 于 这 些 属性 并 不 经 第 出 现 ， 当 请 求 头 出 现 这 些 属性 的 时 候 ， 其 属性 值 大 多 数 是 一 个 
固定 值 ， 如 图 27-5 所 示 。 


Host: www.baidu.com 


Upgrade-Insecure-Requests: 1 


User-Agent: Mozilla/5.8 (Windows NT 18.80; Win64; x64) 


图 27-5 请求 头 信 息 
2. 检测 请 求 头 的 可 变 属性 
可 变 属 性 是 指 请 求 涉 的 属性 以 一 定 的 计算 方式 变换 属性 值 ， 这 类 属性 一 般 部 是 目 行 命名 ， 其 
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VE FH zi A BST re pL], 而且 反 扑 虫 效果 非常 好 。 以 一 个 例子 加 以 说 明 ， 其 请 求 涉 如 图 27-6 所 示 。 


sign: [e7e35b0a2e4b1a72ae72f6dcf 7da58d6 
time:[1544092341 


User-Agent: Mozilla/5.8 (Windows NT 18.0; Win64; x64) 


图 27-6 上 自 定义 请 求 头 属性 


从 图 27-6 上 看 出 ， 请 求 头 属性 sign 和 time 是 目 定 义 属 性 ， 属 性 time 是 以 时 间 惟 的 形式 表示 ， 
代表 当前 请 求 的 时 间 ， 这 说 明 当 前 请 求 具有 时 效 性 。 属 性 sign 是 一 串 不 规则 的 字符 串 ， 说 明 字 符 
串 经 过 了 加 蜜 处 理 ， 奉 要 破解 JS 的 加 密 过 程 ， 只 能 查找 Js 代码 所 在 的 请 求 信息 ， 如 图 27-7 所 示 。 


function(Ae index) {\n 

if (index == _ WEBPACK_IMPORTED MODULE 0 babel runtime core js object keys ^ default() (subData). length — 
1) {\n signs += key + V is V. + subDatalkey] + V^ & cm91dGVyYmV1dG8 V ;^n } else i^n 
signs += key + \” is \ + subDatal[key] + \” and V^; } D signs = 
signs. split (V V) . reverse(). join(V V) ;^n var headsData = {\n time: users. time, An 
sign] this. $md5 (signs). toLowerCase () n }:\n this. $refs[ V" logindataV ].validate (function (valid) 
Mn if (valid) [^n WEBPACK IMPORTED MODULE 2 axios  default.a. post (V /user/loginV', 


formData, i^n aders: E ataMn t). then(function (res) i^n if 


(res. data. error != 0) 
图 27-7 破解 JS TUS 


分 析 图 27-7 上 的 代码 得 知 ，JS 代码 里 的 请 求 头 headsData 定义 了 两 个 属性 time 和 sign， 属 性 
sign 是 将 函数 参数 key 进行 反 转 、mds 加 密 和 大 小 写 转换 等 处 理 ， 若 要 得 知 参数 key 的 数据 内 容 ， 
还 要 深入 分 析 JS 代码 。 

综 上 ， 请 求 头 的 属性 根据 属性 值 内 容 分 为 两 类 : 固定 属性 和 可 变 属性 。 在 息 虫 开发 里 ， 建 议 
将 请 求 头 的 固定 属性 都 写 入 到 请 求 头 里 ， 如 果 请 求 头 含有 可 变 属 性 ， 必 须 找 出 属性 值 的 变化 规律 ， 
然后 由 疏 虫 程序 计算 得 出 正确 的 属性 值 ， 最 后 将 可 变 属 性 写 入 请 求 头 并 完成 HITP 请 求 。 


27.5 基于 Cookies m5 ER 


Cookies Nyi A f 3RSJHI PE. fff Session FRE IU B teCE HH P AibA im EHE. —^h 
Cookies 5x £t RIO EHI as HR HU OSCAR SCIES AAAH Cookies 1x B SURE rupi H3) 35:22 77 3X 
A: 限制 Cookies 的 访问 频率 〈 即 限制 用 户 的 访问 频率 ) 和 限制 Cookies 的 时 效 性 。 

1. 限制 Cookies 的 访问 频率 

在 一 定 的 时 间 内 ， 网 站 设置 了 同一 用 户 的 访问 上 限 ， 如 果 超 出 访问 上 限 ， 网 站 会 认为 当前 用 
户 是 爬虫 程序 或 机 器 人 ， 从 而 引发 反扑 虫 机 制 。 不 同 网 站 的 访问 上 限 各 不 相同 ， 并 且 难 以 测 出 具体 
的 上 限 数 ， 礁 虫 开 发 者 能 通过 延迟 每 个 HTTP 请 求 的 发 送 间隔 ， 比 如 每 个 请 求 之 间 的 间隔 设 为 3 
秒 、5 秒 以 及 10 秒 等 ， 通 过 降低 访问 频率 来 避 开 反 疏 虫 机 制 的 检测 。 
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2. 限制 Cookies 的 时 效 性 


B. Cookies 的 时 效 性 主要 通过 JS. 处 理 , 每 次 发 送 HTTP 请 求 都 会 根据 上 一 次 请 求 的 Cookies 
动态 修改 ， 改 变 后 的 Cookies 将 作为 当前 请 求 的 Cookies 信息 ， 网 站 收 到 HTTP 请 求 后 ， 根 据 
Cookies 的 处 理 逻 辑 去 判断 当前 请 求 的 Cookies 是 否 正 确 。 如 果 判 断 结果 为 正确 ， 网 站 则 返回 正确 
的 啊 应 内 容 ， 人 否则 触发 反扑 虫 机 制 ， 提 示 404 或 500 等 异 沼 信息 。 
以 某国 外 网 站 (https:/www.similarweb.conmycategory) 为 例 ， 访 网 站 在 国内 暂时 无 法 访问 ， 读 
者 需 目 行 处 理 。 访 问 网 站 并 打开 开发 者 工具 的 Network 选项 卡 ， 在 Doc 标签 下 找到 网 页 的 请 求 信 
思 ， 并 查看 Cookies 信息 ， 如 图 27-8 所 示 。 
Cookie: sgID-43b3994a-f102-4d7e-9bfb-8421f1e885c9; .AspNetCore.Antiforgery.xd9Q-ZnrZJo-CfDJ8DmQhnTVHkJMqr 
PArtVp3GiJsTKkfXl1PnELoNTabWDET1RLOThIe9855XuLa7jqAxMNwVpHpSp35939dHuzo9rYqSahlwiwuMWs21goWetr3Tvwa8D3LOlqVp 
6GKwdM988imV-DFA4CbO2Ual53 hoQg;  ga-6A1.2.228349126.1544148546; gid-6GA1.2.1118147088.1544148546;  gcl au 
1.1.1860964709.1544148546; user num-nowset;  fbp-zfb.1.1544148547264.1049076161;  vwo uuid v2-DE7772A0CB7 
DA80314bEA2ECG6E865140|a3c53ca9b7fa9c4b257377dbd8040ab42; vis opt s-1€7C; vis opt test cookie-1; mkto tr 
id:891-VEY-973&token: mch-similarweb.com-1544148551518-16299; D IID-E85317E3-9239-3F74-8ADD-215547869C54 
D UID-6725FA68-BD38-3/D9-A8065-22952B4885888FD; D ZID-zCOC2E046-80452-385/-A5/C-83587/61/293A5; D ZUID-DA46FBFFD- 


71-3086-A843-8EDF9CD3512B; D HID-198993A6-2824-3463-AD7E-13FEB1A1D112; D SID-45.114.164.111:kzhnXyY5/J/3 


WiWYHR200zm/C5uwU5KrDgiNTyOCo; visitor 1d597341-286517961; visitor 1d597341-hash-zf634c942al35b477082fcbcc 
83de180a5751435ce77e5343e0490350829a1356171637c13da38727509391f3c8c26ccda9552858e ; 478X22date*2 
sax2{2e18-12-oro2%3a09%3A10 .8387%22%2C%22isLoyal%22%3Atrue%7D; intercom-id-e74067abdð37cecbecbð662854f0 
ee12139f95-d2de1193-c84d-4099-3955-30a5cb60b5b9; _pk_ses.1.fd33=*; _gat=1; 
1544154789.95524C6C8BE44FB723A973E159753C158.2.2.1.1.1.1.1.1.1; c4A11e857988805818.1544145634 
2. 1544154790 . 1544154296. 


图 27-8 ”查看 Cookies 信息 


当 再 次 刷新 网 页 并 查看 Cookies 信息 时 ， 发 现 Cookies 的 sc is visitor unique 和 pk id 属性 与 

一 次 请 求 的 Cookies 有 所 不 同 ， 两 者 的 数据 都 加 入 了 时 间 戳 ， 使 得 每 次 请 求 的 Cookies 都 会 有 所 
Jf H. loyal-user 属性 设 有 时 间 日 期 格式 。 

在 爬虫 开发 中 , 如果 是 Cookies 引发 的 反 有 候 忠 机制 ,可 以 采取 4 种 应 对 方法 : 构建 Cookies 池 、 
使 用 代理 一、 动态 构建 Cookies 和 利用 浏览 万 获 取 Cookies, WPH iN FP: 

构建 Cookies 池 

Cookies 池 是 将 不 同 的 Cookies 以 列表 的 形式 表示 ， 在 每 次 友 送 HTTP 请 求 之 前 ， 从 Cookies 
池 随 机 抽取 某 条 Cookies 信息 作为 HTTP 请 求 的 Cookies， 这 样 能 降低 同一 条 Cookies 的 访问 频率 ， 
3b 4e, sc JE rU Ln] EIS Ue 

一 般 情 况 下 ， 一 台 计算 机 在 网 站 里 只 会 有 一 个 Cookies 信息 , 若 要 使 用 同一 台 计算 机 生成 多 个 
不 同 的 Cookies， 和 需要 信 助 谷歌 浏 贤 絮 的 无 六 模式 ， 以 美 团 美食 网 站 为 例 ， 有 具体 操作 如 下 。 

打开 新 的 谷歌 浏览 姻 ， 单 击 右 上 方 的 “ 目 定 义 及 控制 ”按钮 ， 选 中 单 击 “ 打 开 新 的 无 沪 窗 口 ” 
选项 ， 如 图 27-9 所 示 。 
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* el:| 


打开 新 的 标签 页 (T) Ctrl eT 
打开 新 的 窗口 (N) Ctrl+N 


打开 新 的 无 痕 窗 口上 由 Ctrl - Shift N 


认 宇 记 示 (H) 
BSEPSER(D) 
书签 (B) 


图 27-9 ”打开 新 的 无 痕 窗 口 


在 无 痕 模 式 下 输入 美 团 美 食 网 站 (https:/gz.meituan.com/meishi/) ， 并 在 开发 者 工具 中 获取 
Cookies 信息 ， 如 图 27-10 所 示 。 


Cookie: client-id-4f51a883f-11a9-47d9-81a3-5ff986a5d474; uuid-81lfc565f-bcbd-4f43-8 
3lc-dafb4ae51465; lxsdk cuid-15787653321c8-07205895153806-8383268-1fa400-1678765 
3321c8;  lxsdk-16787653321c8-807295e05]153850e-5383268-1f2a4080-16787653321c8; lxsdk 
5-16787653323-39d-c808-1c2*€/CX7/C2 

Host gz.meituan.com 

Upgrade-Insecure-Requests: 1 

User-Agent: Mozilla/5.8 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, 
like Gecko) Chrome/69.0.3497.100 Safari/537.36 


图 27-10 第 一 次 获取 Cookies 


在 第 二 次 获取 新 的 Cookies 之 前 ， 需 要 将 谷歌 浏览 器 全 部 关闭 ， 然 后 重新 打开 新 的 无 痕 窗 口 ， 
再 次 访问 美 团 美食 网 站 获取 新 的 Cookies, WB 27-11 所 示 。 


Cookie: client-id-3625a8185-cbld-4e58-a588-fcb833df8509; uuid-ab2b294e-4095-43fd- 
8aff-335be7a8572b;  lxsdk cuid-167876fb2f92-0d0267835bc82f2-8383268-1fa400-16787 
6fb2fac8;  ixsdk-16/5/6fb2f92-0d25/035bc82f2-85383265-lfa400-1lo/8/6fb2fsc85;  ixs 
dk s-16/8/6fb2fa-2bf-8e2-AccX*/C»/C02 


Host gz.meituan.com 


Upgrade-Insecure-Requests: 1 


User-Agent: Mozilla/5.8 (Windows NT 18.8; Win64; x64) AppleWebKit/537.36 (KHTML, 
like Gecko) Chrome/69.8.3497.1800 Safari/537.36 


图 27-11 第 二 次 获取 Cookies 


对 比 图 27-10 和 图 27-11 AI, ÆREN FIREA Cookies 信息 各 不 相同 ， 这 种 方法 构建 
Cookies 7l zén[frHj. " Cookies 信息 记载 7 用 户 登 录 人 信息， 那么 构建 Cookies 713) m x AP B] HP 


446 | 实战 Python WEE 


RI PES 

2. 使 用 代理 IP 

代理 IP 是 解决 Cookies 反扑 虫 机 制 的 最 有 效 手段 ， 它 可 以 解决 多 用 户 使 用 同一 个 IP 地 址 的 安 
全 问题 ， 使 用 代理 IP 可 以 真实 模拟 多 用 户 在 访问 网 站 。 虽 然 谷 歌 的 无 痕 窗 口 可 以 得 到 多 个 不 同 的 
Cookies 信息 ， 但 这 些 Cookies 可 能 存储 了 计算 机 的 卫 地 址 等 信息 ， 如 果 网 站 服务 器 对 这 些 信 息 进 
t TRUM, REA SARI mpm. 

网 络 上 有 专门 提供 代理 P 服务 的 网 站 ， 在 第 21.4 节 已 讲述 了 代理 IP. 的 使 用 ， 也 是 调用 网 站 
提供 的 API 接口 实现 ， 详 细 的 使 用 方法 可 得 看 相关 网 站 提供 的 文档 说 明 。 

3. 动态 构建 Cookies 


WR Cookies 设置 了 时 效 性 ， 我 们 可 以 解读 JS 代码 来 获取 Cookies 处 理 逻 辑 ， 在 一 个 网 页 里 ， 

JS 代码 主要 存放 在 Network 选项 卡 的 JS 标签 和 Doc 标签 中 。 以 上 述 国外 网 站 

(https://www.similarweb.com/category) 为 例 ， 在 JS 标签 和 Doc 标签 中 都 能 找到 Cookies 的 处 理 代 
码 ， 由 于 Cookies 的 处 理 代码 较 多 ， 此 处 只 列举 部 分 代码 ， 如 图 27-12 所 示 。 


ta URLs All | XHR JS CSS Img Media Font [Pea WS Manifest Other 


Te æ æ 


eaders Preview Response Cookies Timing 


<!--Loyal Users GA Goal--> 
<script type="text/javascript"> 


var loyalUserCookie = 'loyal-user'; 
if ($.cookie(loyalUserCookie)) { 
var cookieData = JSON.parse($.cookie(loyalUserCookie)); 
if (!cookieData.isLoyal) { 
var diff = new Date() - Date.parse(cookieData.date); 
var diffInMinutes = Math.round(((diff % 8648800808) X 368080800) / 680000); 
if (difflInMinutes > 28) ( 
ga('send', 'event', 'micro-conversion', 'loyal-user', 'visit-homepage'); 
cookieData.isLoyal - true; 
var cookieValue = JSON.stringify(cookieData); 
£.cookie(loyalUserCookie, cookieValue); 


图 27-12 Cookies 的 处 理 代 但 

4. 利用 浏览 器 获取 Cookies 

解读 Cookies 的 处 理 代 码 是 非 第 耗 时 的 ， 而 且 非 常 考 验 爬 虫 开 发 者 对 JS 代码 的 熟练 程度 。 此 
外 ， 还 可 以 利用 浏览 器 获取 Cookies， 使 用 Requests-HIML、Selenium 或 Splash 等 模块 实现 浏览 占 
动态 加 载 网 页 ， 然 后 从 中 获取 Cookies 信息 。 

第 182 TEMAJ QQ 音乐 歌曲 下 载 是 使 用 Selenium 模拟 浏览 器 加 载 网 页 ， 从 而 获取 网 页 的 
Cookies 信息 。 虽 然 这 种 方法 可 以 轻松 获取 Cookies 信息 ， 但 在 浏览 器 加 载 网 页 的 时 候 ， 它 会 自动 
加 载 网 页 的 全 部 请 求 信 息 ， 因 此 也 会 降低 肘 虫 的 爬 取 速 度 。 
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27.6 术 革 小 结 


反扑 虫 一 直 都 是 息 虫 开发 最 让 人 尖 疼 的 问题 。 相 信 很 多 开发 者 会 遇 到 这 样 的 情况 ， 在 开发 过 
程 中 ,， 扑 虫 程序 成 功 通 过 测试 , 但 项 目 上 线 就 会 出 现 各 种 问题 ， 比 如 HTTP 请 求 出 现 异 常 或 者 无 法 
从 啊 应 内 容 有 息 取 目标 数据 等 ， 这 种 “程序 开发 正常 ， 上 线 出 异 弟 ”的 情况 是 因为 网 站 设置 了 有 反 息 虫 
机 制 。 

C) 验证 码 是 反 疏 虫 机 制 里 面 最 利用 的 手段 之 一 ， 在 爬虫 中 出 现 验证 码 的 情况 如 下 : 

o 登录 页 面 设 有 验证 码 识 别 。 

o 特殊 请 求 设置 验证 码 。 

e 网 络 环境 导致 验证 码 出 现 。 

仿 证 码 识别 的 可 行 解 决 方案 ， 说 明 如 下 : 

使 用 OCR 技术 识别 。 

使 用 第 三 方 平台 API 接口 识别 。 

人 为 识别 验证 码 。 

使 用 Selenium 控制 程序 实 现 识 别 验 证 码 。 
从 浏览 器 复制 Cookies 并 写 入 程序 。 


(25 爬虫 是 通过 HTTP 请 求 来 获取 目标 数据 , 而 请 求 参数 是 HTTP 请 求 必 不 可 少 的 构成 部 分 ， 
因此 很 多 反扑 虫 机 制 都 设置 了 请 求 参 数 ， 请 求 参 数 的 数据 来 源 方式 如 下 : 


e 参数 值 为 固定 可 选 值 。 

@ 参数 值 来 自 其 他 请 求 的 响应 内 容 . 
e 参数 值 经 过 JS 处 理 。 

e 参数 值 为 特殊 值 。 


根据 请 求 参 数 的 类 型 ， 可 以 总 结 出 请 求 参 数 的 查找 方法 ， 如 下 所 示 : 
查找 请 求 参 数 的 变化 规律 。 
从 其 他 请 求 信息 查找 
分 析 JS 代码 处 理 过 程 。 
利用 浏览 器 动态 加 载 。 
在 请 求 涉 里 设置 反扑 虫 机 制 也 是 常见 的 手段 之 一 ， 因 此 请 求 涉 的 反扑 虫 机 制 如 下 : 
e 检测 请 求 头 的 固定 属性 。 
e 检测 请 求 头 的 可 变 属 性 。 
(3) Cookies 是 网 站 为 了 辨别 用 户 身 份 、 进 行 Session 跟踪 而 储存 在 用 户 本 地 终 靖 上 的 数据 ， 
一 个 Cookies 就 是 存储 在 用 户主 机 浏览 器 中 的 文本 文件 。 网 站 利用 Cookies 设置 反扑 虫 机 制 主要 方 
式 如 下 : 
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e 限制 Cookies 的 访问 频率 ( 即 限 制 用 尸 的 访问 频率 ) 。 
e 限制 Cookies 的 时 效 性 。 

在 爬虫 开发 中 ， 如 果 是 Cookies 引发 的 反扑 虫 机 制 ， 可 以 采取 4 种 应 对 方法 : 
e 构建 Cookies 3», 

e 使 用 代理 IP, 

e 动态 构建 Cookies。 

e 利用 浏览 器 获取 Cookies. 


HOT RIÉmBIX 


28.4 框架 设计 说 明 


从 本 书 的 实 碾 项 目 看 到 ， 疏 虫 开 用 不 党 是 使 用 爬虫 库 还 是 爬虫 框 娘 ， 香 按照 功能 划分 ， 整 个 
爬 里 程序 分 为 三 部 分 : 数据 爬 取 、 数 据 清 洗 和 数据 入 库 。 本 章 开 及 的 爬虫 框架 也 是 按照 功能 划分 的 
逻辑 来 实现 ， 目 前 尚 处 于 挫 形 阶段 ， 虽 然 能 实现 候 虫 开发 ， 但 尚 有 很 多 功能 有 竺 完善 。 
本 爬虫 框架 现 由 4 个 文件 组 成 ,分别 是 初始 化 文件 imt .py 和 功能 文件 pattern.py、spider.py、 
storage.py， 文件 说 明 如 下 : 
初始 化 文件 init .py 用 于 设置 框架 的 版 本 信息 和 导入 框架 的 功能 文件 。 
数据 清洗 文件 pattern.py 用 于 定义 数据 清洗 类 ， 清 洗 方式 与 Scrapy 框架 相似 。 
数据 爬 取 文件 spiderpy 用 于 定义 数据 爬 取 类 ， 仆 取 方 式 支持 异步 并 发 、URL 去 重 和 分 布 
Ra 
e 数据 存储 文件 storage.py 用 于 定义 数据 存储 类 ， 目 前 支持 关系 型 数据 库 、 非 关系 型 数据 库 、 
CSV 文件 存储 数据 和 文件 下 载 功 能 。 


我 们 将 框架 命名 为 pyReptile， 在 DD 盘 里 创建 文件 夹 pyReptile， 然 后 在 文件 夹 里 创建 文件 ， 框 
架 的 目录 结构 如 图 28-1 所 示 。 


pyReptile D:\pyReptile 
& init .py 


a pattern.py 
a spider.py 
a storage.py 


图 28-1 目录 结构 


由 于 初始 化 文件 _init .py 只 是 设置 框架 的 版 本 信息 及 导入 框 染 的 功能 文件 , 因此 初始 化 文件 
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的 代码 如 下 : 


i project: pyReptile 

i author: Xy Huang 
version = 1.0.0" 

# 导入 功能 文件 

from .storage import * 

from .spider import * 

from .pattern import * 


初始 化 文件 是 整个 框架 的 入 口 ， 它 导入 了 整个 框架 的 功能 。 在 使 用 框架 的 时 候 ， 只 需 在 初始 
化 文件 调用 相关 的 功能 模块 即 可 ,功能 文件 pattern.py、spider.py 和 storage.py 支撑 整个 框架 的 运行 ， 
其 原理 图 如 图 28-2 所 示 。 


图 28-2 框架 流程 图 
pyReptile 框架 的 设计 原理 是 从 Scrapy 框架 和 SQLAIlchemy 框架 受到 启发 的 , 具体 的 说 明 如 下 : 


e 数据 疏 取 方式 由 URL 地 址 的 数据 格式 决定 , 如 果 URL 地 址 的 数据 格式 为 列表 , pyReptile 
就 会 执行 异步 并 发 ， 并 将 所 有 请 求 的 响应 内 容 以 列表 格式 返回 ; 如 果 传 入 的 URL 地 址 是 
字符 串 格 式 ( 即 单一 的 URL 地 址 )，pyReptile 就 直接 返回 相应 的 响应 内 容 ; 并 且 还 支持 
URL E € 492178 AJR 3x zh fie. 

e 数据 清洗 采用 Scrapy 框架 的 清洗 模式 ,使 用 方式 与 Scrapy 框架 有 一 定 的 相似 之 处 ， 目 前 
仅 支 持 CssSelector fe Xpath 定位 方式 。 

@ 数据 入 库 支持 关系 型 数据 库 、 非 关系 型 数据 库 和 CSV 文件 存储 ， 关 系 型 数据 库 由 
SQLAlchemy 框架 实现 ; 非 关 系 型 数据 库 目 前 仅 支 持 MongoDB 数据 库 . pyReptile 简化 入 
库 方式 ， 只 需 将 已 取 的 数据 以 字典 格式 传 入 即 可 实现 入 库 操 作 ，。 


28.2 PENJA 


pyReptile 框架 的 数据 候 取 由 Aiohttp 模块 实现 ， 因 此 它 具备 了 异步 并 发 功能 。 我 们 将 Aiohttp 
模块 的 数据 仆 取 功能 进行 封装 和 延伸 , 简化 了 其 使 用 方式 , 使 用 者 只 需 调用 相关 的 函数 并 传 入 参数 
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即 可 发 送 HTTP 请 求 。 打 开 spider.py 文件 ， 在 文件 里 定义 爬虫 类 Request, RAU F: 


import asyncio 
import aiohttp 
import redis 


# 设置 默认 参数 
TIMEOUT = 40 
REQUEST HEADERS = 1 
'Accept': 'text/html,application/xhtml-«xml, 
application/xml;q=0.9,*/*;q=0.8", 
"Accept Language tent, 
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 
AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/69.0.3497.100 Safar1/537.36' 


} 
# 实例 化 对 象 ， 用 于 发 送 HTTP GR 


loop = asyncio.get event loop() 


# 定义 装饰 器 ， 实 现 URL 去 重 或 分 布 式 处 理 
der distributes (func): 
def wrapper{self, url, *^kwarugs- 
redis host = kwargs-get('redis host', *'') 
1f redis host: 
port — kwargs-get{' port', 6319) 
db = kwargs-get({('db', 1} 
redis db = redis.Redis(host-redis host, port-port, db-db) 
redo dala dict — "keys! 
if not redis db.hexists(redis data dict, url): 
redis db.hset(redis data dict, url, 0} 
return fime (self, url, "*kwargs) 
ersen 
return f{} 
Else 
return tunc(isotr, url, *-*kwargs) 
return wrapper 


koxE XE HRS 
class Request (object) : 
# 定义 异步 函数 
async def hrtbEpGetisclr, url, **kwargs): 
cookies = kwargs.get('cook1ies', 11) 
params = kwargs.getí('params', {}) 
proxy = kwadrgs.goti(i'proxy', | 
timeout = kwargs.get('timeout', TIMEOUT) 
headers = kwargs.gebt('headers', REQUEST HEADERS) 
# 市 代理 IP 
1f proxy: 
async with aiohttp.ClientSession(cookies-cookies) as session: 
async with session.get(url, params-params, proxy-proxy, 
timeout-timeout, headers-headers) as response: 
# 将 啊 应 内 容 以 字典 格式 返回 
result = dicti 
content-await response.read(), 
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text-await response.text(), 
Status- respõnse Status, 
Hesde rs response headers; 
ürl=-response.-url 
) 
return result 
# AARE IP 
ee 
async with aiohttp.ClientSession(cookies-cookies) as session: 
async with session.get(url, params-params, timeout-timeout, 
headers-headers)} ds response: 
result = dicti 
content-await response.read(), 
text-await response.text(), 
Status- respõnse stalus, 
Headers response Hheadcrs 
ürl=-response.-url 


) 


return result 


# 定义 异步 函数 
async der ht:tpPost(sclt, url, **kwargs)}: 
cookies = kwargs.get('cooki1ies', {H 
data = kwargs.gert(i'data'. IT) 
proxy — kwargs.getíi'proxy', ~i) 
timeout = kwargs.get('timeout', TIMEOUT) 
headers = kwargs.get( headers , REQUEST HEADERS} 
1f proxy: 
async with aiohttp.ClientSession(cookies-cookies) as session: 
async with session.post(url, data-data, proxy-proxy, 
timeout-timeout, headers-headers) as response: 
Fesilt = dicti 
content-await response.read(), 
text-await response.text(), 
stalus response status, 
headers=response.headers, 
url- response. uri 
) 
return result 
二 二 
async with aiohttp.ClientSession(cookies-cookies) as session: 
async with session.post(url, data-data, timeout-timeout, 
headers headers) aS response: 
fesul = dicti 
content-await response.read(), 
text-await response.text(), 
SbHLHus-POSDOUISC.scudbus,. 
headers- response headers, 
url- response. url 
) 


return result 


# 定义 GET 请 求 方式 
Rdistributes 
def goriselr. sri. tkwargsi: 
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tasks = [] 
if isinsLancelurl, lisi}: 
for u in url: 
task = asyncio.ensure Tuture(self.httpGet(u, **kwargs)) 
tasks .append (task) 
result = loop.run until complete (asyncio.gather(*tasks)) 
erce: 
result = loop.run until complete (self.httpGet (url, **kwargs)) 
return result 


# 定义 POST 请 求 方式 
Qdistributes 
der DOSELUSCEIT, url, **Ewardgs): 
tasks = [] 
rif rIs5:nstance[url, lisit}: 
for u in url: 
task = asyncio.ensure future(self.httpPost(u, **kwargs)) 
tasks .append (task) 
result = loop.run until complete (asyncio.gather(*tasks)) 
EIS 
result = loop.run until complete (self.httpPost (url, **kwargs)) 
return result 


+ 实例 化 Request 对 象 

request = Request () 

上 述 代 码 主 要 分 为 : WEWEEE, ENRI IR RURE EEX Request。 初 始 化 变量 与 

对 象 是 设置 爬虫 的 超时 时 间 、 请 求 头 以 及 实例 化 对 象 loop, iZ08 98H] XS HTTP 请 求 ; 定义 装 
MaM TEREX Request， 实 现 URL 去 重 功能 或 分 布 式 功能 。 疏 虫 类 Request 一 共 定 义 4 个 函数 ， 
图 数 的 功能 说 明 如 下 : 

e 函数 httpGet 是 定义 Aiohttp 的 异步 GET 请 求 函 数 ， 函 数 参 数 url 以 字符 串 格式 表示 ， 代 表 
请 求 地 址 URL， 可 选 参 数 kwargs 代表 自 定 义 的 请 求 设 置 ， 如 请 求 头 、 代 理 IP. Cookies 
信息 、 超 时 和 请 求 参 数 等 。 

e Až httpGet 会 对 参数 proxy 进行 判断 ， 如 果 参 数 proxy 非 空 ，Aiohttp 在 发 送 GET 请 求 的 
时 候 ， 则 在 请 求 里 添加 参数 proxy， 由 于 参数 proxy 的 特殊 性 ， 如 果 和 参数 proxy 为 空 并 且 在 
请 求 里 添加 参数 proxy，Aiohttp 会 提示 异常 信息 ， 因 此 函数 需要 对 参数 proxy 进行 判断 处 
理 。 了 最 后 ， 函 数 会 将 响应 内 容 以 字典 格式 返回 。 

e 函数 httpPost 是 定义 Aiohttp 的 异步 POST 请 求 函 数 ,函数 参数 Url 和 kwargs 与 函数 httpGet 
的 参数 功能 一 致 ， 通 数 的 功能 实现 过 程 与 函数 httpGet 的 相似 ， 区 别 在 于 两 者 的 HTTP 请 
求 方式 各 有 不 同 。 

e 函数 get 是 定义 爬虫 类 Request 的 GET HRF A, HAAA url 的 数据 格式 可 为 字符 串 或 
列表 格式 ， 可 选 参 数 kwargs 代表 自 定 义 的 请 求 设 置 ， 如 请 求 头 、 代 理 IP. Cookies 信息 、 
超时 和 请 求 参 数 等 ， 参 数 kwargs 也 是 函数 httpGet 的 参数 kwargs。 

e 函数 get 经 过 装饰 器 distributes 过滤， 装饰 器 从 函数 get 获取 Redis 数据 库 连 接 参 数 ， 如 果 
没有 数据 库 连 接 参 数 ， 则 往 下 执行 函数 get; 如 果 存 在 数据 库 连 接 参 数 ， 则 连接 Redis 数据 
库 并 判断 参数 url 是否 记 录 在 Redis 数据 库 ， 若 已 记录 ， 不 再 执行 函数 get, 反之 执行 函数 get. 
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KK get 对 参数 urb 进行 判断 ， 如 果 und 是 列表 ， 则 对 列表 进行 遍历 ， 每 次 遍历 调用 函数 
httpGet， 传 入 当前 的 URL 地 址 并 添加 到 任务 列表 ， 然 后 将 任务 列表 交 给 对 和 象 loop 处 理 ， 
对 所 有 任务 发 送 异步 并 发 的 HITP 请 求 ， 最 后 将 所 有 请 求 的 响应 内 容 以 列表 格式 返回 。 如 
T our 是 字符 串 ， 则 由 对 象 loop 调用 函数 httpGet， 发 送 HTTP 请 求 并 返回 响应 内 容 。 

dk post 是 定义 爬虫 类 Request 的 POST HRSA, HAAA url 和 kwargs 与 函数 get 的 
参数 功能 一 致 ;函数 的 功能 实现 过 程 与 函数 get 的 相似 , 区 别 在 于 两 者 调用 的 Aiohttp 异步 
HALA AR. 


HERZ Request 的 代码 可 以 看 到 ， 函 数 之 间 的 代码 存在 重复 使 用 的 情况 ， 因 为 Aiohttp 在 使 
用 过 程 中 需要 以 with 模块 化 表示 ， 从 而 导致 代码 出 现 重 复 。 

I T MAJEE Request 的 功能 是 否 正确 ,我 们 在 spider.py 文件 目录 下 创建 spiderTest.py 文件 ， 
并 在 文件 里 编写 功能 测试 代码 ， 如 下 所 示 : 

from spider import request 


# GET 请 求 
from spider import request 


# GET 请 求 


url 


= 'http://httpbin.org/get' 


t url — ['hbttp://httpbin.org/get'] 
Parama — f 


} 


'pyReptile': 'spiderGet' 


cookies = t 


'pyReptile': 'spiderCookies' 


} 
# URL 去 重 或 分 布 式 ， 设 置 Redis 数据 库 连 接 参数 
redis bost ~ T1271 nor 


r = request.get (url, params=params, cookies=cookies, 


redis host-redis host) 


prentr.get('text', *'X) 
# print (r[0O] [text"]) 


# POST 请 求 
url = 'http-//httpbin-org/post' 
# url = ['hbttp://htbpbin.org?post'] 


data = ( 
'pyReptile': "spiderPost' 
} 
conkres = t 
'pyReptile': 'spiderCookies' 
} 
r — request.post(url, data-data, cookies-cookies) 


prent([r:get('text', **'Y) 

# print (rr[0l [text"]) 

上 述 代码 简单 演示 了 pyReptile 框架 的 GET 和 了 POST 请 求 , 使 用 方法 与 Requests 模块 相似 , 但 
在 发 送 HITP 请 求 的 时 候 ，pyReptile 框架 会 根据 参数 url 的 数据 格式 而 执行 相应 的 请 求 处 理 ， 这 一 
RAE Requests 模块 无 法 比拟 的 。 运 行 上 述 代 码 就 会 分 别 输出 GET 和 POST 请 求 的 啊 应 内 容 ， 如 
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图 28-3 所 示 。 


Fid E 
args : 1 


args : | Sam : : m 
"nyReptile": "spiderGet" GET 请 求 files: ioi POST1B > 

| "form : | 

“headers”: T pyReptile : spiderPost 

"Accept": "text/html, application/xhtml+xml, application/xml; q=0. 9, ^' 


"Accept-Encoding": "gzip, deflate”, headers : | 


^" ^ ^ Ar i a na A TT tE; tm my j Dp 1 /*x -Lxrm ann im 
Accept-Language”: “en”, Accept : text/html, application/xhtml+xml, applica 


i "Accept-Encoding": “gzi deflate” 
"Connection" : "close", p g gzip, i 


"Cookie": "nyReptile-spiderCpbokies", Accept-Language : en, 


"ut^: Cubcubad. ciis Connection: "close", 
Al. " aA AR s " z T z - AS ] — ] " 'O A ^ "5 A 
User-Agent”: "Mozilla/5.0 (Windows NT 10.0: Win64;: x64) AppleWeH Content-Length : 20, 
| "Content-Type": "application/x-www-form-urlencoded 
Jj 3 
"origin : "157. 61. 158. 251°, 


a 


"Cookie": "nyReptile-spiderCookies", 


"Host": "httpbin.org', 
"User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64d 


Pad 


url”: "http://httpbin. org’ 


图 28-3 GET 和 POST 请 求 的 响应 内 容 


上 述 测试 代码 中 ，GET 请 求 设置 数据 库 连 接 参 数 redis host， 当 再 次 运行 上 述 代码 时 就 不 再 执 
行 GET 请 求 ， 打 开 RedisDesktopManager ÆA Æ Redis 数据 库 ， 查 看 数据 库 所 记录 的 URL 地 址 ， 如 
图 28-4 所 示 。 


http://httpbin. org/get 


图 28-4 Redis 数据 库 
28.3 数据 请 洗 机 制 


pyReptile 框架 的 数据 清洗 由 BeautifulSoup4 和 Ixml 模块 实现 ， 使 用 者 只 需 调 用 相关 的 函数 并 
传 入 相应 的 参数 即 可 清洗 数据 。 打 开 pattem.py 文件 ， 在 文件 里 定义 数据 清洗 类 DataPattem， 人 代码 
如 下 : 


from bs4 import BeautifulSoup 
import xml 
from 1xml.html.soupparser import fromstring as soup parse 


class DataPattern (object): 
def css5cICCEOFISCIT. ESGSDUNSC. Selector, **kEwards)- 
parser — Ewardgs.-ugetí('parser' , 'hHiml.parser"') 
tempList - [] 
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soup = BeautifulSoup(response, parser) 
Eem Son select (selcc tor ucTCETEOTC) 
for i in temp: 

tempList.append(i.getText ()) 
return tempList 


def xpgthisolrtrosponsc,sclocbor. **tkwargsy. 


parser — kwargs.- geL parser; Himi parser) 
Ery: 

soup = soup parse (response, features-parser) 
eepe 

soup = 1xml.html.fromstring (response) 


temp = soup-xpath (selector) 

tempList = [] 

for i in temp: 
tempList.append(i.text) 

return tempList 


dataPattern = DataPattern() 
数据 清洗 类 DataPattern XE X. f ŽI cssSelector() ll xpathO， 两 个 国 数 的 参数 说 明 如 下 : 


e 参数 Tesponse 代表 HTTP 请 求 的 响应 内 容 。 
参数 selector 代表 目标 数据 的 定位 方法 ， 定 位 方法 采用 5CssSelector 或 Xpath 语法 。 
可 选 参数 kwargs 是 自 定义 设置 ， 如 参数 parser 可 自 定 义 选 择 HTML 解析 器 ， 若 无 对 参数 
parser 进行 设置 ， 则 默认 使 用 Python 标准 库 的 HTML 解析 器 


html.parser. 


图 数 cssSelector0 和 xpathO 实 现 数 据 清 洗 处 理 ， 有 具体 的 实现 过 程 如 下 : 


@ 从 可 选 参 数 kwargs 获取 参数 parser， 如 果 parser 的 参数 值 为 空 ， 则 默认 使 用 htmlparser 作 
为 解析 器 ， 将 参数 response 的 参数 值 进行 HTML 解析 并 生成 soup 对 象 。 

e 由 参数 selector 对 soup 对 象 进行 定位 和 查找 ， 从 中 找 出 符合 条 件 的 数据 对 象 temp. 
遍历 循环 对 象 ttmp， 获 取 对 象 temp 的 数据 内 容 并 写 入 列表 tempList， 再 将 列表 作为 函数 
iR TM. 

e 将 数据 清洗 类 DataPattern 4T 3:446, "Em X dataPattermm， 用 于 开发 者 的 调用 。 


为 了 测试 数据 清洗 类 DataPattern 的 功能 是 否 正确 , 在 pattern.py 文件 目录 下 创建 patternTest.py 
文件 ， 并 在 文件 里 编写 功能 测试 代码 ， 如 下 所 示 : 


from pattern import dataPattern 
from spider import request 
url = 'https://movie.douban.com/subject/3168101/comments' 
headers = I 
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 
AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/70.0.3538.6/ Satartr/537.36' 


} 
Ic rogucsc get(orl neaders headersy 
i cssSelector 


title - dataPattern.cssSelector(r['text'], '4content > hl') 
print (title) 
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selector = 'div.comment» p > span' 
comment-dataPattern.cssSelector(r['text'],selector,parser-'html51lib') 
print (len (comment ) ) 


# xpath 

title = dataPattern.xpath (r['text'], '//*[Q@id="content™] /hil") 

print (title) 

selector = '//*[8id-"comments"]//p//span' 

comment = dataPattern.xpath(r['text'], selector, parser-'html5lib') 
print (len (comment ) ) 


上 上 述 代码 使 用 爬虫 类 Request [8] 52:38 HZ TE ie UL fX HTTP 请 求 , 并 将 啊 应 内 容 交 给 数据 清洗 
对 象 dataPattern 进行 清洗 处 理 ， 从 啊 应 内 容 中 分 别提 取 电 影 标 题 和 评论 内 容 。 由 于 评论 内 容 较 多 ， 
我 们 只 输出 电影 标题 和 评论 总 数 ， 如 图 28-5 所 示 。 


[ Ei: 致命 守护 者 短评 | 
20 


[ 毒液 : 致命 守护 者 短评 | 
20 


图 28-5 数据 清洗 


函数 cssSelector0 和 xpath() 的 参数 selector 必须 遵从 CssSelector 和 Xpath 语法 规则 ， 有 关 
CssSelector 或 Xpath 语法 规则 ， 读 者 可 以 自行 查阅 资料 。 


28.4 数据 存储 机 制 


pyReptile 框架 的 数据 存储 是 采用 SQLAlchemy 框架 、pymongo 和 csv 模块 实现 的 ， 分 别提 供 
了 三 种 不 同 的 数据 存储 方式 ,在 使 用 过 程 中 只 需 设 置 数 据 存 储 方 式 及 调用 相关 方法 即 可 实现 数据 存 
储 处 理 。 打 开 storage.py 文件 ， 在 文件 里 定义 数据 存储 类 DataStorage， 人 代码 如 下 : 


from sqlalchemy import * 

from sqlalchemy.orm import sessionmaker 

from sqlalchemy.ext.declarative import declarative base 
from pymongo import MongoClient 

import csv 

import os 

Base = declarative base() 


# 定义 数据 存储 类 Datastorage 
class DataStorage (object): 
def init (self, CONNECTION, **kwargs): 
seir.:dababaserype ~ kwargs-gerí('daLtabascrypo-, Co ) 
# 根据 参数 databaseType 选择 存储 方式 ， 默 认 csv 文件 存储 
1f self.databaseType -- 'SQL': 
E 根据 字段 创建 映射 类 和 数据 表 
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Sseclr.rriebdr) 

Cablename — kKwugrgs-dgcti'tablenam-'.selr- elass name 
self.table = self.table(tablename) 

self.DBSession = self.connect (CONNECTION) 


elif self.databaseType == 'NoSQL': 
self.DBSession = self.connect (CONNECTION) 
else: 


self.path = CONNECTION 


# 定义 数据 表 字 段 

der freldiselt): 
F self.name = Column (String (50)) 
pass 


# 连接 数据 库 ， 生 成 DBSession 对 象 
def connect (self, CONNECTION): 
# 连接 关系 型 数据 库 
1f self.databaseType -- 'SQL': 
engine = create engine (CONNECTION) 
DBSession = sessionmaker (bind-engine) () 
Base.metadata.create all (engine) 
# 连接 非 关 系 型 数据 库 
else: 
info = CONNECTION.split('/') 
# 连接 Mongo 数据 库 
connection = MongoClient ( 
info), 
int t infoll]) 
) 
db = connect ron[1nfo[211 
DBSession = db[info[3]] 
return DBSession 


# 定义 映射 类 
def table (self, tablename): 
class TompriablciBasc):- 
tablename = tablename 
id = Column(Integer, primary key-True) 
# 将 类 属 些 进行 判断 ， 符 合 sqlalchemy 的 字段 则 定义 到 数据 映射 类 
Lor k, x in celi. dict. .itcemstk: 
if isinstance(v, Column): 
sSeLtattriTemprabtoc, k, v) 
return TempTable 


# 插入 数据 


def insert(self, value): 
# 关系 型 数据 库 的 数据 插入 
1f self.databaseType -- 'SQL': 


self.DBSession.execute(self.table. table  .insert(), value) 


self.DBSession.commit() 
# 非 关 系 型 数据 库 的 数据 插入 
elif self.databaseType == 'NoSQL': 
# 判断 参数 value 的 数据 类 型 ， 选 择 单 条 数据 还 是 多 条 数据 插入 


if isinstance(value, list): 
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self.DBSession.insert many(value) 
else: 
self.DBSession.insert (value) 


# 更 新 数据 
def update (self, value, condition-(]): 
# 关系 型 数据 库 的 数据 更 新 
1f self.databaseType -- 'SQL': 
# 更 新 条 件 只 设置 了 单个 条 件 
if condition: 
c = sBlir.-LFanle. dict [list (condit ron-keyst)) TOII. 
in (Iistí(condition.values())) 


sel]lf.DBSession-execute{self.table. table 
update () -where (c) -Values (), value) 
# 全 表 更 新 
else: 
oo IOn CST Ol EG: Dl oo 


update(} -values ({(), value) 
self.DBSession.commit() 
# 非 关 系 型 数据 库 的 数据 更 新 
elif self.databaseType == 'NoSQL': 
self.DBSession.update many (condition, ([('$set': value]) 


# 文件 下 载 
def getfile(self, content, filepath): 
with open(filepath, 'wb') as code: 
code.write (content) 


# 数据 写 入 CSV 文件 
def writeCSV(self, value, title-[]): 
# 参数 title 为 空 列表 ， 则 将 字典 的 keys 进行 排序 并 作为 csv 的 标题 
DL nob LIEG: 
title = sorted(value[0].keys()) 
# 判断 文件 是 否 存在 ， 
pathExists = os.path.exists(self.path) 
with opení(selft.path, *'a', newline-'") as csv file: 
csv Writer = csv.writerF(csv file) 
# 文件 不 存在 ， 则 写 入 标题 
1f not pathExists: 
csv writer.writerow(title) 
# 将 数据 写 入 CSV 文件 
for v in value: 
wvalueList 三 Tl 
Lor rum Erbtle: 
valueList.append(v[t]) 
csv writer.writerow(valueList) 


数据 存储 类 DataStorage 定义 8 个 方法 , 分 别 是 初始 化 方法 _init O 类 方法 field(). connect(). 
table(). insert(), update(). getfile) Hl writeCSVO， 每 个 方法 所 实现 的 功能 说 明 如 下 : 


(1) 初始 化 方法 ”init 0 根据 参数 databaseType 来 执行 相应 的 数据 存储 方式 ， 每 种 数据 存储 
方式 说 明 如 下 : 
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@ 如 果 参 数 databaseType 设 为 SQL， 则 说 明 数 据 存 储 方式 为 关系 型 数据 库 。 初 始 化 方法 会 从 
可 选 参 数 kwargs 里 获取 参数 tablename， 如 果 参 数 tablename 不 存在 ， 则 由 子 类 的 名 字 作 为 
数据 表 的 表 名 ; 然后 调用 类 方法 field0， 从 类 方法 field0 里 获取 自 定 义 的 字段 属性 ， 用 于 
定义 数据 表 映 射 类 ; 再 调用 类 方法 table0 来 创建 数据 表 映 射 类 ， 并 以 类 属性 table 表示 ; 最 
后 调用 类 方法 connect0O 进 行 数 据 库 连接 ， 将 数据 库 连 接 对 象 返回 并 以 类 属性 DBSession X 

© 如 果 参 数 databaseType 设 为 NoSQL, 则 说 明 数 据 存储 方式 为 非 关 系 型 数据 库 。 初 始 化 方法 
只 调用 类 方法 connect0O 并 把 参数 CONNECTION 传 入 ， 实 现 数据 库 连 接 ， 将 数据 库 连 接 对 
象 返回 并 以 类 属性 DBSession 表示 。 

@ 如 果 参 数 databaseType 设 为 CSV 或 没有 设置 参数 databaseType， 则 说 明 数 据 存 储 方式 为 
CSV 文件 存储 。 初 始 化 方法 将 参数 CONNECTION 赋值 给 类 属性 path， 类 属性 path 代表 
CSV 文件 路 径 信 息 。 


(2) 类 方法 field0 让 开发 者 自 定义 数据 表 字 段 ， 主 要 用 于 关系 型 数据 库 的 存储 方式 。 在 使 用 
过 程 中 ,通过 子 类 继承 数据 存储 类 DataStorage, 在 子 类 里 重 写 类 方法 field0 即 可 实现 和 目 定义 表 字 段 。 

(3) 类 方法 connect0 根 据 参 数 databaseType 来 选择 相应 的 数据 库 连 接 方式 。 如 果 使 用 关系 型 
数据 库 ， 则 使 用 SOLAlchemy 框架 实现 数据 库 连 接 ， 反 之 则 使 用 pymongo 模块 连接 MongoDB. 

(4) 类 方法 table0 定 义 数 据 表 映射 类 TempTable, 映 碳 类 会 默认 创建 主键 DD， 然 后 遍历 数据 
存储 类 DataStorage 的 类 属性 ， 并 对 每 个 类 属性 的 数据 类 型 进行 判断 ， 如 果 类 属性 是 Column 对 象 

(BB SQLAlchemy 的 表 字 段 对 象 ) ， 则 使 用 Python 内 置 方法 setattr0 将 类 属 些 写 入 数据 表 映 射 类 

TempTable. 

(5) 类 方法 insert0 实 现 数 据 入 库 功 能 ,支持 关系 型 和 非 关 系 型 数据 库 的 数据 入 库 操作 。 插 入 
的 数据 必须 是 字典 格式 ， 并 且 字 典 的 key 必须 为 表 字 段 。 参 数 value 可 以 是 列表 或 字典 形式 ， 夺 是 
以 字典 表示 ， 则 插入 单条 数据 ， 寿 是 以 列表 表示 ， 则 插入 多 条 数据 。 

(6) 类 方法 update0 实 现 数据 更 新 功能 ， 支 持 关 系 型 和 非 天 系 型 数据 库 的 数据 更 新 操作 。 参 
数 value 必须 是 字典 格式 ， 并 且 和 字典 的 key 必须 为 表 字 段 ; 参数 condition 是 更 新 条 件 ， 它 的 默认 值 
为 None. 如 果 参 数值 为 None, 则 对 全 表 数 据 进 行 更 新 处 理 , 反之 对 符合 条 件 的 数据 进行 更 新 处 理 。 

(7) 类 方法 getfile0 实 现 文件 下 载 功能 ， 参 数 content 代表 文件 内 容 参数 flepath 代表 文件 
所 保存 的 绝对 路 径 。 

(80 类 方法 writeCSVO 实 现 CSV 文件 存储 数据 功能 ， 参 数 title 代表 文件 表 头 内 容 ， 如 宋 参 
数值 为 室 ， 则 以 参数 value 首 个 元 素 的 keys 作为 表 头 内 容 ， 参 数 title 以 列表 表示 ， 列 表 元 素 决 定 
了 数据 写 入 顺序 ; 参数 value 是 竺 存储 的 数据 内 容 , 也 是 以 列表 表示 , 每 个 列表 元 素 是 以 字典 表示 。 


综 上 , 类 方法 field). connectÓ FI table0 主 要 用 于 初始 化 方法 int 0, 为 初始 化 方法 init 0 
分 别提 供 数据 表 字 段 、 数 据 库 连 接 对 象 DBSession 和 数据 表 映 射 类 TempTable; 类 方法 insert0 和 
updateO0 是 实现 数据 库 的 数据 操作 《如 数据 的 新 增 或 修改 ) ;gettile0 和 writeCSVO 分 别 实现 文件 下 
载 功能 和 CSV. 文件 存储 数据 功能 。 

为 了 验证 数据 存储 类 DataStorage 的 功能 是 否 正 确 ， 在 storage.py 文件 目录 下 创建 三 个 测试 文 
件 storageTest-CSV.py、storageTest-NoSQL.py 和 storageTest-SQL.py， 分别 验 证 三 种 数据 存储 方式 。 
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首先 打开 storageTest-CSV.py, 在 文件 里 编写 功能 测试 代码 ， 验 证 CSV 文件 存储 数据 功能 ， 如 


下 所 水: 
from storage import * 


if name = ' gqnain ': 
CONNECTION = 'data.csv' 
# 竺 存储 数据 personinfo 
pereonbnro = [TT Tam "Lucy ; Tage: "9r" adgressi "Em 
[namen DT "age: PB. fuaddrpbess'- ' EXT 
# 实例 化 数据 存储 类 Datastorage 
database = DataStorage (CONNECTION) 
# 调用 writecsv () 实现 csv 文件 存储 
# database.writeCSV (personInfo) 
database.writeCSV(personInfo, title-['name', 'age', 'address']) 


变量 CONNECTION 是 CSV 文件 路 径 信 息 , 在 实例 化 数据 存储 类 DataStorage 的 时 候 传 入 变量 
CONNECTION 即 可 将 数据 存储 方式 选 为 CSV 文件 存储 , 无 须 设 置 参 数 databaseType。 实 例 化 对 象 


database 调用 writeCSVO 方 法 即 可 实现 CSV. 文件 存储 数据 功能 。 


运行 上 述 代码 ， 并 控制 参数 title 的 传 入 方式 ， 分 别 合 看 参数 title 的 传 入 是 舍 对 文件 存储 的 造 


成 影响 ， 如 图 28-6 所 示 。 


age ; 1 (address age name 
北京 市 21 Lucy 


Lily 18 上 海 Em 18 Lily 
pre Ae title 
图 28-6 CSV 文件 存储 


BC 117T storageTest-NoSQL.py， 在 文件 里 编写 功能 测试 代码 ， 验 证 非 关 系 型 数据 库 的 数据 存 


储 功能 ， 如 下 所 示 : 


from storage import * 


Lf name == * main *- 
CONNECTION = 'localhost/27017/test/storage db' 
# 实例 化 数据 存储 类 Datastorage 
database = DataStorage(CONNECTION, databaseType-'NoSQL') 
# 插入 多 条 数据 
personino — | "name 'Lupy'- *age'-s "OT "address! ESM’ T 
(pame: 'Lhily'. "age: *'I18*. 'address': IT www tl 
database.insert (personInfo) 


# 插入 单条 数据 

le ~ [' Game STOm agel: ol address "tm 
database.1insert (value) 

# 更 新 数据 

condition = ('name': 'Lucy'} 


updatelnlo -~ ['name': "hnucw'. 'dge'- "221, *andresst- T m] 
database.update(updateInfo, condition) 
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变量 CONNECTION 是 MongoDB 的 连接 方式 ， 在 实例 化 数据 存储 类 DataStorage 的 时 候 ， 传 
入 变量 CONNECTION 并 设置 参数 databaseType 为 NoSQL 即 可 选择 非 关 系 型 数据 库 的 数据 存储 功 
能 。 实 例 化 对 象 database 调用 insert() fil update0 方 法 ， 分 别 实现 多 条 数据 插入 、 单 条 数据 插入 和 数 
据 更 新 功能 。 

运行 上 述 代 码 之 前 ， 在 MongoDB 的 可 视 化 工具 里 操作 MongoDB， 创 建 数据 库 test。 代 码 运 
行 成 功 后 ， 在 可 视 化 工具 里 查看 数据 库 test 的 storage db 集合 ， 该 集合 的 数据 信息 如 图 28-7 所 示 。 


MDb (Œ| localhost:27017 test 


db.getCollection 


storage db ( 0.001 sec. 


id name age address 
1 © Objectld5c21d9117.. 四 Lucy 四 22 加 广州 市 
< | | Objectld(5c21d9117... EY Lily "| 18 ""| 上 海 市 


3 | | Objectld(5c21d9117.. EY Tom ©" 21 "| 阔 京 市 


图 28-7 非 关 系 型 数据 库 的 数据 存储 功能 


最 后 打开 storageTest-SQL.py， 在 文件 里 编写 功能 测试 代码 ， 验 证 关系 型 数据 库 的 数据 存储 功 


from storage import * 


# 定义 数据 表 personinfo 
class Personinfto(DaLaS5torage): 
def fieldiselt): 

# 定义 数据 表 字 段 
# self.name = Column (String (50)) 
self.name = Column(String(50), comment-'ZE44"') 
self.age = Column(String(50), comment-'£EÉS') 
self.address = Column(String(50), comment- HWH) 


# 定义 数据 表 schoolinfo 
class SchoolInfo(DataStorage): 
def fr:eldiselt): 
# 定义 数据 表 字 段 
# self.name = Column (String (50)) 
self.school - Column(String(50), comment-' 学 校 ， ) 
self.name = Column(String(50), comment- ' W4 ') 


if name ==' main ': 
CONNECTION = 'mysql+pymysql://root:1234@ 
localhost/storage db?charset-utf8mb4' 
person = Personinio(CONNECTION, databaseType-'5QL") 
School = SchoolInfo(CONNECTION, databaseType-'SOoLn') 
# 对 personInfo 表 插 入 多 条 数据 


personinto — pl'name'- 'Lucy'. *age's *'21*. "address'- Eam i, 
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| 
person.insert (personInfo) 
# 对 schoolInfo 表 插 入 单条 数据 
sehool Lnteo = {f name: Lacy "School - 清华 大 学 ' } 
school.insert (schoolInfo) 


# *|personInfo 表 更 新 数据 

condition — [':d'- 11 

personinto — t'name'- "Lucy, *'age'- *22*. address: T Mm‘) 
person.update(personInfo, condition) 

# 对 schoolInfo 表 更 新 数据 

schoolinio — {' name": TLucy', “school: TEFAF) 
school.update(schoolInfo, condition) 


上 述 代 码 分 别 定 义 了 数据 存储 类 PersonInfo 和 SchoolImnfo， 两 者 通过 重 写 类 方法 field0 来 实现 
表 字 上 段 的 定义 。 在 文件 中 的 运行 疯 数 main 分别 对 类 PersonInfo 和 SchoolInfo 进行 实例 化 ， 由 于 
子 类 继承 了 父 类 DataStorage 的 初始 化 方法 ， 因 此 数据 存储 类 PersonInfo 和 SchoolInfo 在 实例 化 的 
时 候 会 定义 数据 表 映 射 类 和 创建 数据 表 连 接 对 象 , 最 后 实例 化 对 象 person 和 school 分 别 调用 insert() 
和 update(0 方 法 ， 实 现 数据 的 入 库 和 更 新 处 理 。 

从 使 用 方式 上 友 现 ， 关 系 型 数据 库 的 使 用 方式 不 同 于 非 关 系 型 数据 库 和 CSV. 文件 ， 前 者 是 通过 
定义 子 类 并 继承 数据 存储 类 DataStorage， 再 实例 化 子 类 并 调用 相关 的 方法 ， 从 而 实现 数据 存储 功 
能 ; 而 非 天 系 型 数据 库 和 CSYV 文件 是 直接 实例 化 数据 存储 类 DataStorage 并 调用 相关 的 方法 。 

运行 上 述 代 码 ， 并 打开 数据 库 storage db 查看 数据 表 schoolinfo 和 personinfo 的 数据 信息 ， 如 
图 28-8 所 示 。 


编辑 ss ED | 文件 «s S8 ED 帮助 
事务 ”国文 本 ” Yag meas Brt- ymt 片 排序 


school name id name age address 
1 北京 六 学 Lucy b 1 Lucy 22 rinm 
2 Lily 18 上 海 市 


图 28-8 ”数据 表 schoolinfo 和 personinfo 的 数据 信息 
28.5 实战 : 用 自制 框架 候 取 豆 汶 电影 


相信 读者 对 pyReptile 框架 设计 已 有 一 定 的 了 解 ， 本 节 我 们 通过 一 个 实战 项 目 来 讲述 如 何 使 用 
pyReptile 框 典 实现 爬虫 开 友 。 以 豆 办 电影 为 例 ， 选 取 茶 一 部 电影 作为 爬 取 对 象 ， 分 别 爬 取 电 影 信 
轧 和 电影 评论 。 在 电影 信息 页 (https:/movie.douban.comysubject3168101/?from=showing) 4j JE 
取 电 影 名 称 和 剧情 简介 ， 如 图 28-9 所 示 。 
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oO 写 短评 C 写 影评 + 提问 题 523 


毒液 : 致命 守护 者 的 剧情 简介 


XB ( 汤姆 : 哈 迪 Tom Hardy 饰 ) 是 一 位 深 受 观众 喜爱 的 新 闻 记 者 ， 和 女友 安妮 ( 米 歇 尔 .威廉 姆 斯 Michelle Willia 
ns tm ) 相 恋 多 年 ， 彼此 之 间 感 情 十 分 要 好 。 安 妮 是 一 各 律师 ， 接手 了 生命 基金 会 的 案件 ， 在 女友 的 邮箱 里 ， 艾 过 发 现 
『 基 全 会 老板 德 雷 克 ( 里 兹 : 阿 迈 德 Riz Ahmed t ) 不 为 人 知 的 秘密 。 为 此 ， 艾 迪 不 仅 丢 了 工作 ,女友 也 高 他 而 去 。 

之 后 ,生命 基金 会 的 朵 拉 博 十 珍妮 -斯 车 特 Jenny Slate t ) 找到 了 艾 迪 ， 希望 艾 迪 能 够 帮助 她 阻止 德 震 克 疯狂 
的 徘 行 。 在 生命 基金 会 的 实验 室 里 ， 苞 迪 发 现 了 德 雷 克 进 行人 体 实 验 的 证 据 ， 并且 在 误 打 误 撞 之 中 被 外 星 生命 体 毒 液 
导 身 。 回 到 家 后 ， 艾 迪 和 毒液 之 间 形 成 了 共生 关系 ， 他 们 要 应 对 的 是 德 雷 克 派 出 的 一 流 又 一 波 亲手 。 OX 


图 28-9 ”电影 信息 页 


然后 在 浏览 占 中 打开 电影 评论 页 (https:/movie.douban.comysubject/3168101/comments?status=P) , 


分 别 息 取 用 户 名 和 评论 内 容 ， 如 图 28-10 所 示 。 


毒液 : 致 扼守 护 音 得 评 


看 过 (110286) 查看 (3453) 
热门 最 新 好 友 


e 全 部 O 好 评 62% 


AN Bx sS, RIEESESE.BLISERIESÉDIRSORSEEU- Ef f. 但 观感 是 OK 的 ， 变 成 了 襄 剧 片 。 
仇 歼 念 的 小 蜘蛛 ,每 液 暴虐 不 再 ， 成 了 晓 炮 + 情感 专家 ， 反 而 特别 萌 ， 还 教 艾 迪 泡妞 ， 警 体 就 是 
故事 ， 书 粉 会 个 磷 (Fork PT ) 。 但 为 了 搭 MCU 改 成 这 样 也 是 无 亲 ,好 在 反 英雄 路 线 还 是 
保留 。 铺 垫 略 长 ， 这 号 待 效 个 、 错 ， 最 后 议 体 大 战 很 好 谭 ， 汤 老师 中 小 财 峙 有 的 一 拉 。 毒 液 时 乱 之 外 ， 另 一 


ABB, 年度 最 佳 吻 戏 ， ee 288 ( 没什么 离 浇 的 场 徊 ， 内 地 估计 .不 会 | 


图 28-10 ”电影 评论 页 


和 候 取 的 数据 狐 可 从 开发 者 工具 Network 选项 卡 的 Doc 分 类 标签 里 找到 数据 位 置 ， 本 节 不 再 讲 
述 网 页 结构 的 分 析 过 程 。 我 们 将 pyReptile 框架 放置 在 Python 安装 目录 的 site-packages 文件 来 ， 这 


是 将 pyReptile 框架 以 第 三 方 库 的 形式 安装 在 Python 里 ， 如 图 28-11 所 示 。 


/我 来 与 短评 


3530 有 用 


没有 局 
mime 
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» 软件 (D: > Python > Lib > site-packages 


^ 


pas | 
HI 


pyquery-1.4.0.dist-info Xr 
pyReptile 立 件 去 


图 28-11 安装 pyReptile 框架 
完成 pyReptile 框 架 安 装 后 ,在 D 盘 下 创建 文件 严 doubanSpider, 并 在 文件 夹 里 分 别 创建 fields.py 
和 spider.py X fF. XFX doubanSpider 是 项 目的 文件 目录 ， 如 图 28-12 所 示 。 


dE > 软件 (D:) > doubanSpider 


P4 


HPR AM 


a fields.py Python File 


A spider.py Python File 


图 28-12 项 目 文件 目录 


打开 fields.py 文件 , 分 别 定 义 数据 存储 类 MovieComment 和 MovieInfo, Vr ErZK pyReptile 
框架 的 数据 存储 类 DataStorage。 在 目 定 义 的 数据 存储 类 中 , 重 写 类 方法 field0 并 在 类 方法 里 目 定义 
类 属性 ， 每 个 自 定 义 的 类 属性 代表 数据 表 的 表 字 段 ， 代 人 码 如 下 : 
from pyReptile.storage import * 
# 定义 电影 信息 表 的 字段 
class MovieComment (DataStorage): 
der freldi(selr): 
# 定义 数据 表 字 段 
self.movield = Column(String(50), comment- M% ID") 
self user — Column(String(50), comment=' 用 户 名 ') 
self.comment = Column(String(3000), comment=" 评 论 内 容 ") 


# 定义 电影 评论 表 的 字段 
class MovieInfo (DataStorage): 
def field(self): 
# 定义 数据 表 字 段 
self.movield = Column(String(50), CEOnnenEE 电影 工 7 
self.name = Column(String(50), comment=" 电 影 名 称 ") 
self.summary = Column (String (3000),，comment=' 剧 情 简介 "') 


最 后 在 spider.py 文件 里 编写 具体 的 爬虫 规则 ， 数 据 存 储 介质 选择 MySQL 数据 库 ， 爬 取 数 据 
是 东部 电影 的 基本 信息 和 前 十 页 的 评论 内 容 ， 实 现代 码 如 下 : 


from pyReptile import request, dataPattern 
from fields import MovieComment, MovieInfo 
import time 


# 基本 设置 
CONNECTION = 'mysqltpymysql://root:12340localhost/ 
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spiderdb?charset-utf8mb4' 
# 实例 化 数据 存储 类 ， 定 义 映射 类 以 及 创建 数据 表 
movieComment = MovieComment (CONNECTION) 
movielnfo = MovieInfo (CONNECTION) 


# 疏 取 电影 信息 
def get movie (movieId): 
# URL 以 字符 串 格 式 传 入 
r — request.get(movieUrl $ (movieId)) 
name — dalubPgCcbern-cgsocIlcCEOEDP] Cexe I THI > Span) po] 
summary = dabaPatLlern.cssselecrtorír['texr'],;'TlIink-report"') [0] .strip() 
movieDic = dict(movield-movield, name-name, summary-summary) 
# 查询 数据 表 是 否 已 存在 数据 
queryMovie = movieInfo.DBSession.query (movieInfo.table). 
filter by(movieId-movieId).all() 
# 存在 数据 则 作 更 新 处 理 
1f queryMovie: 
condition = ['movielid'- movield) 
movieInfo.update(movieDic, condition) 
# 不 存在 就 插入 新 的 数据 
else: 
movieInfo.insert (movieDic) 


+ EREK EE 
def get comment (movieId): 
# URL 以 列表 格式 传 入 
prdlnrSr = [| 
for page in range (10): 
urlList.append(commentUrl $ (movield, str(page * 20))) 


valüugehrst — rl 
responseList = request.get (urlList) 
for response in responseList: 
commentList = dataPattern.cssSelector(response['text'], 


'div.comment > p > span!) 
userList = dataPattern.cssSelector(response['text'], 
"span.comment-info > a') 
for comment, user in zip(commentList, userList): 
valueList.append (dict (movield-movieId, user-user, 
comment-comment )) 


# 数据 入 库 
movieComment.insert (valueL1ist) 
SE name == * main *- 
# 开始 时 间 
localTime = time. localtime{(time.timet(}) 
beginTime = time.strftime("$H:$M:$S", localTime) 
print (' 程 序 开 始 时 间 : ' + beginTime) 
# MERJE 
movieUrl = 'https://movie.douban.com/subject/$s/?from-showing' 
commentUrl = 'https://movie.douban.com/subject/£s/comment s? 


start-£s&limit-2ü0&sort-new score&status-P' 
mowvicid = "3168101" 
get movie (movieId) 
get comment (movieId) 


# 结束 时 间 
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localTime = time.localtime (time.time(})} 
endTime — time.strftime("$H:$M:$S", localTime) 
print ( "程序 结束 时 间 : ' + endTime) 
上 述 代 个 可 划分 为 4 部 分 ， 分 别 是 pyReptile ERJ AEREE E RAE LET JE E ER ZA 
get movieO0、 电 影评 论 的 爬虫 国 数 set _ commentO0 和 文件 运行 入 口 ， 说 明 如 下 : 


(1) pyReptile 框架 功能 的 初始 化 是 设置 SQLAlchemy 连接 MySQL 的 连接 内 容 ， 由 pymysql 
模块 实现 连接 ， 数 据 存储 在 数据 库 spiderdb; 将 数据 库 的 连接 内 容 以 参数 的 形式 传 入 数据 存储 类 
MovieComment 和 MovieInfo， 生 成 实例 化 对 象 movieComment 和 movielnfo. 

(2) 电影 信息 的 爬虫 国 数 get movie0 是 对 电影 信息 页 进行 数据 爬 取 、 清 洗 和 入 库 处 理 ， 说 明 
如 下 : 

e 首先 对 电影 信息 页 的 URL 地 址 发 送 HTTP 请 求 ， 因 为 只 慌 取 某 一 部 电影 ， 所 以 URL 地 址 
是 以 字符 串 格式 表示 。 

o 从 响应 内 容 里 提取 电影 名 称 和 剧情 简介 ， 将 提取 的 数据 转换 成 字典 格式 ， 字 典 的 key 是 数 
据 表 的 表 字 段 ， 即 数据 存储 类 MovieInfo 定义 的 类 属 些 ， 字 典 的 value 是 提取 的 数据 内 容 。 

e 最 后 由 对 象 movieInfo 判断 电影 ID 是 否 已 存在 , 若 存 在 , 则 对 数据 表 的 数据 进行 更 新 处 理 ， 
反之 则 对 数据 表 新 增 数据 。 


(3) 电影 评论 的 爬虫 图 数 get _ commentO 是 对 前 十 页 的 电影 评论 页 进行 数据 扑 取 、 清 洗 和 入 库 
处 理 ， 说 明 如 下 : 
e 前 十 页 的 电影 评论 页 共有 10 条 不 同 的 URL 地 址 ， 因 此 URL 地 址 是 以 列表 的 形式 传 入 请 
求 函数 get), pyReptile 框架 对 其 执行 异步 并 发 的 HITP HR. 
e 将 前 十 页 的 响应 内 容 进行 遍历 ， 每 次 遍历 会 提取 当前 页 面 的 用 户 名 和 评论 内 容 ， 再 将 用 户 
名 和 评论 内 容 转换 成 字典 格式 ， 并 且 写 入 列表 valueList， 该 列表 保存 了 前 十 页 所 有 的 用 户 
名 和 评论 内 容 。 
e 最 后 由 对 钊 movieComment 对 列表 valueList 执行 数据 入 库 处 理 。 
(4) 文件 运行 入 口 是 设置 电影 ID、 信息 页 和 评论 页 的 URL Ahk HEE KX get movie() 
和 get commentO 以 及 设置 程序 运行 的 开始 时 间 和 结束 时 间 。 通 过 程序 运行 前 后 的 时 间 对 比 ， 可 以 
得 知 pyReptile 框架 的 疏 取 效率 。 运 行 spiderpy 文件 ， 若 不 考虑 网 速 或 硬件 等 因素 ， 项 目的 胞 取 效 
率 约 为 3 秒 ， 如 图 28-13 所 示 。 


程序 开始 时 间 : 17:36:33 


程序 结束 时 间 : 17:36:36 


图 28-13 MERAK 


最 后 打开 数据 库 spiderdb, 分 别 查 看 数据 表 movieinfo 和 moviecomment 的 数据 信息 ,如 图 28-14 
所 示 。 
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文件 Rsa EE 窗口 帮助 Xr SS ES 窗口 帮助 
G Fess  Epx*-y wu 上 排序 |S Feas —Eprck Yms [cue RSA 
id movield name summary id movield user comment 
b 13168101 毒液 : 致命 守护 者 V 艾 迪 (汤姆 ' 哈 过 和 了 》 13168101  £E35X3 AWESHE , RES 
2 3168101 EveyDn 个 晴天 XENd ! 口碑 不 好 时 影评 / 
3 3168101 。” 桃 桃 海 电 影 TEESCMNIE, VER 


ee EB I ee eei» 
第 1 冬 iC 示 ( 共 1 条 ) 才 第 1 外 SELECT * FROM si 第 1 条 IC 未 ( 共 200 条 ) 
图 28-14 数据 表 movieinfo 和 moviecomment 的 数据 信息 


28.6 Æ m /p 4f 


EREM 4 个 文件 组 成 ， 分 别 是 初始 化 文件 _init .py、 功 能 文件 pattern.py、spider.py 
和 storage.py， 文 件 说 明 如 下 : 
初始 化 文件 init .py 是 设置 框架 的 版 本 信息 及 导入 框架 的 功能 文件 。 
数据 清洗 文件 pattern.py 是 定义 数据 清洗 类 ， 清 洗 方式 与 Scrapy 框架 相似 。 
XE AE CC fF spiderpy 是 定义 数据 疏 取 类 ， 疏 取 方 式 支 持 异 步 并 发 、URL 去 重 和 分 布 式 。 
数据 存储 文件 storage.py 是 定义 数据 存储 类 ， 目 前 支持 关系 型 数据 库 、 非 关系 型 数据 库 、 
CSV 文件 存储 数据 和 文件 下 载 功 能 。 


spider.py 实现 初始 化 变量 、 定 义 装 饰 器 与 对 象 和 定义 爬虫 类 Request。 初 始 化 变量 与 对 象 是 设 
置 爬 虫 的 超时 时 间 、 请 求 头 以 及 实例 化 对 象 loop， 访 对象 用 于 友 运 HTTP WRK: ENR IAr EH 
TEREX Request， 实 现 URL 去 重 功 能 或 分 布 式 功能 。 疏 虫 类 Request 定义 4 个 函数 : httpGetO、 
httpPostO、getO 和 postO 。 

pattern.py 定义 数据 清洗 类 DataPattern, "tc H1 BeautifulSoup4 和 Ixml 模块 实现 的 ， 使 用 者 只 
需 调用 相关 的 函数 并 传 入 相应 的 参数 即 可 清洗 数据 。 

storage.py 定义 数据 存储 类 DataStorage， 采 用 SQLAlchemy 框架 、pymongo 和 csv 模块 实现 ， 
提供 三 种 不 同 的 数据 存储 方式 , 在 使 用 过 程 中 只 需 设 置 数 据 存 储 方 式 以 及 调用 相关 方法 即 可 实现 数 
据 存储 处 理 。 

息 虫 框架 目前 还 有 很 多 功能 尚未 完善 ， 比 如 奴 虫 类 Request 需要 添加 Selenium 或 Splash 等 功 
人 能、 数据 清洗 类 DataPattern 和 数据 存储 类 DataStorage 的 运行 逻辑 尚 不 成 熟 。 若 读者 有 兴趣 参与 
pyReptile 框 染 的 开发 ， 可 以 联系 笔者 。 


